芳心老师撰写

相机的时代:Google Lens一年蜕变录

Google Lens现在可以识别超过10亿件物品。

人工智能时代,没有人会觉得相机的功能只是单纯的拍照工具。

随着智能手机的普及,存储变得更加便宜和便利,我们可以随时拍摄各种类型的照片,从日出到日落,从他拍到自拍。旅行、学习、工作,相机渗透到我们生活的方方面面。

据估计,我们的大脑皮层中有30%的神经元是用于视觉的。每一个清醒的时刻,我们都依靠我们的视觉来感知我们周围的环境,记住各种各样的信息,并探索我们周围的世界。

我们使用相机的方式并不是唯一改变的事情,相机背后的技术也在不断发展。

随着硬件、软件和人工智能的不断发展,相机将远远超越摄影,它将帮助我们搜索所看到的事物,提供更多的信息。 

Google Lens就是在这样的背景下诞生的。

Google Lens是谷歌在2017年推出的一项技术,简单来说就是利用手机上的摄像头,能够扫描产品、动物、文本或者其它存在于环境当中的事物,并成功将其识别出来。

这项服务依赖于由谷歌及其它来源提供的信息,借此为用户提供与目标相关的准确资料。

谷歌在一篇新的博客文章中写道,Google Lens现在可以识别超过10亿件物品。 

当然,这10亿件商品来自Google购物中提供的产品,因此,那些模糊不清的东西就不会包含在内了,例如我们小时候玩的游戏机或某个稀有书籍的第一版。 

除了购物项目之外,谷歌镜头现在还可以识别人员、Wi-Fi网络名称和几何形状。 

这也算谷歌镜头一项重大的进步了。 

一、Google Lens:搜索你看到了什么

当我们看到一只可爱的秋田犬,想知道它的品种是什么?我们会怎么向别人形容它呢?黄色的、毛茸茸、爱笑,这应该算是很多品种的狗狗共有特征。

但是,如果你用谷歌镜头对准狗狗,那么,关于狗狗的品种和其它信息就会立马呈现在你的手机上。

也就是说,Google Lens把你看到的内容转换为搜索查询

除了搜索你看到的物体,Google Lens还可以找到你的兴趣点,比如,当我们把镜头对准一个建筑物,就会自动显示相关的信息和网上评论,或者,我们把镜头对准一个音乐专辑,谷歌镜头会自动识别其标题并为你提供源自网络的评论内容。

当然,谷歌识别也不是每次都是正确的,一些特性不是那么明显的物体,它就很有可能识别错误。

Google Lens是在去年谷歌I/O开发者大会推出的,主要运用机器学习计算机视觉技术,当时,Google Lens还仅面向谷歌公司的Pixel系列手机产品,且首先登陆Pixel 2设备之上(随后也可在初代Pixels上运行)。

现在,Google Lens可以在其他安卓手机上运行,也可在苹果IOS系统运行。 

二、Google Lens:读懂现实世界

在今年的I/O开发者大会上,谷歌针对Google Lens进行了三项更新。 

1、智能文本选择功能 

这个功能可以将我们看到的单词与需要的答案和操作连接起来。Google Lens可以阅读现实世界的文本信息,并且可以复制并粘贴这些文本到手机上,比如食谱或Wi-Fi密码。

 为了教导镜头阅读,谷歌开发了一个光学字符识别(OCR)引擎,并将其与我们对搜索语言和知识图的理解相结合。谷歌使用不同的字符、语言和字体训练机器学习算法,并使用Google Books扫描等资源。

有时候,Google Lens很难区分字母“o”和“0”之类的相似字符。对此,Google Lens使用谷歌搜索中的语言和拼写校正模型来更好地理解角色或单词的可能性。比如,看到“c00kie”,Google Lens可以猜测单词的意思是“饼干”。

2、风格搜索

当一件衣服或家居装饰吸引了我们的眼球,我们可以打开镜头,不仅可以得到关于那件特定物品的信息,而且还可以看到与你喜欢的款式相似的东西。

3、实时搜索

Google Lens现在能够主动地即时呈现信息,它将其锁定在您用户看到的事物上。用户只需对准相机,Google Lens可以在瞬间识别出数十亿个单词、短语、位置和事物,用户就可以更好地浏览周围的世界。

结语:

当我们走在国外陌生的街道上,只需把手机镜头对准不认识的字,相机就可以自动翻译;当我们站在某个建筑物面前,打开相机,就可以了解关于这个建筑物的一切信息。

我们现在正处在一个相机的时代,人工智能机器学习的快速发展,可以使相机成为我们周围世界的强大而直观的界面。

参考链接:

https://www.blog.google/products/google-lens/google-lens-real-time-answers-questions-about-world-around-you/

AI锐见
AI锐见

洞察AI行业趋势

产业光学字符识别计算机视觉机器学习Google Lens
1
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

光学字符识别技术

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

推荐文章
暂无评论
暂无评论~