从机器翻译到云视觉,谷歌的七大机器学习应用

本文作者 James Le 目前正就读于美国丹尼森大学计算机科学与通信系,同时也在业余时间更新一个 Medium 专栏,之前的一些文章也曾赢得了广泛的好评,本文是他最新更新的谷歌机器学习应用盘点文章。

Steven Levy 的文章「谷歌如何将自己改造成一家「机器学习优先」公司?」是这个夏天最受关注的文章之一。这篇文章的内容讲了从 2016 年初起,谷歌怎样痴迷于机器学习技术并开始了一系列举措,如开源的 TensorFlow 和 Brain Residency 项目。同时作为世界上最理想的工作场所,谷歌的使命是「整合全球信息,使人人皆可访问并从中受益」。所以谷歌在未来科技——人工智能——上投入巨大也就毫不奇怪了。大约两周前,我有幸参加了位于 Galvanize 的一场讲座,讲座介绍了谷歌一些很酷的机器学习应用。主讲人是Christine Robson——一位致力于谷歌内部机器学习开发的产品经理。以下是 Christine 所讲的谷歌 7 个最酷的机器学习应用和产品:

1.谷歌翻译(Google Translate)

谷歌翻译是免费的多语种统计机器翻译服务,它能将文本、语音、图像、网站以及实时录像从一种语言翻译成另一种语言。当谷歌翻译开始一项翻译时,它能从亿万文献中查找语言模式来帮助它确定最佳翻译。通过发现文献中已被人工翻译的语言模式,谷歌翻译可以智能地猜测(人工智能)什么是最合适的翻译结果。  

1-q8aS7F643_D7ojYsWY3p5w(1).jpeg

谷歌翻译取词镜头

就个人而言,我上个学期出国旅行时曾大量使用谷歌翻译。我当时住在哥本哈根,当地的语言是丹麦语,而我对它并不熟悉。每当我购买日用品时,我总要使用谷歌翻译扫一扫产品标签,以确定它在英文中的含义。当我在其它欧洲国家旅行时,我也使用谷歌翻译来弄清楚街道标志、地铁横幅以及其它指路信息。这实在是一项了不起且简单的技术,为我节省了很多时间。

2 . 谷歌语音搜索(Google Voice Search)

谷歌语音搜索允许用户通过对手机或电脑讲话来使用谷歌搜索,也就是说,设备搜索要输入的信息是通过对设备讲话得到的。它是谷歌努力与苹果公司的 Siri 语音助手相竞争的产品,并且被认为具有惊人的反应速度和相关性,「而且比 Siri 更有深度」。

1-TCX3fIBrX1XzWwlC2xpkoQ(1).jpeg

谷歌语音搜索

我有一部安卓手机,因此我更了解这项应用。我最喜欢谷歌语音搜索的地方,是它和其它产品的整合:如谷歌地图与YouTube。当我不想打字的时候,我可以说出搜索的内容,然后对应的信息就会马上弹出。  

3 .Gmail Inbox 智能回复  

这项功能受到繁忙的专业人士的大力推崇,这些人的收件箱每天充斥着大量邮件,而他们没有时间一一回复。智能回复(Smart Reply)使用机器学习算法自动回复邮件,为手机用户节省了很多在手机小键盘上打字的麻烦。据 Christine 说,用这项功能发送的回复邮件占到手机回复量的 10%,这是一项很不错的成就。

1-to--2KQXuhwsuI-rsMShUg(1).jpeg

智能回复功能是否成功是很好衡量的,即能否给出合理的回复。因此,算法系统可以通过记录用户是否选择了建议的回复来训练。我还没有使用过智能回复(我仍然手工回复收件箱中的邮件),但毫无疑问,这将成为一个方便的助手,使我的职业生涯更轻松。

4 .RankBrain

RankBrain 是应用深度神经网络的搜索排名算法,它帮助谷歌处理搜索并呈现更相关的结果。举例说,当 RankBrain 看到一个它不熟悉的词或词组时,它会猜测有哪些词或词组有相似的含义,并把它们筛选出来,这使得它能更加有效地处理从未见过的搜索查询。据 Christine 说,RankBrain 是继链接和内容之后排名算法中第三重要的因素。  

1-yZ5AstDlKSSxOEI_TIpQlg(1).jpeg

谷歌 Rankbrain

现在 95% 的谷歌利润来自搜索引擎的广告,因此 Rankbrain 这样的技术将为谷歌赚取更多利润。

5 .Google Photos

如果你是安卓用户,相信你会很频繁地使用 Google Photos。作为一项照片/视频的分享和存储服务,Google Photos 有无限存储空间,并且有针对安卓、苹果系统以及浏览器的应用软件。只要设备上安装了应用软件,用户就可以将他们任意设备上的照片保存到云端服务器。最近,Google Photos 能把某一特定时期拍摄的照片自动创建成一个照片专辑,并根据这些照片整理出旅途中的「最佳」照片。为了确定「最佳」照片,软件使用了机器学习算法来训练计算机「学习」识别图像。

1-X-OJZEvGLY1iCASq3cUv9Q(1).jpeg

在专家看来,相比于对手亚马逊(Amazon Cloud Drive)、苹果(iCloud)、Dropbox和微软(OneDrive),Google Photos 是最好的照片云端存储服务。因为无缝衔接和同步,我使用它非常频繁,我的照片可以在电脑中编辑,然后同步到我安卓手机的文件夹中。  

6 .谷歌云视觉 API

谷歌云视觉 API 是一项更有技术含量和企业化的产品,通过将强大的机器学习模型封装在易操作的 REST API 中,它使得开发人员能够使用 API 理解图像的含义。它可以把图像快速划分到成千上万种类别中,还能识别图像中的物体和人脸、读出图像中的印刷文字。作为一个开发者,你可以在图像目录里建立元数据、控制冒犯性的内容、或者通过情绪分析制定新的营销方案。

1-99hxEozV_NvCTO8UI1SE7A(1).png

谷歌云视觉API

7 .DeepDream

DeepDream 是一项使用卷积神经网络的机器视觉项目,它通过空想性幻觉(pareidolia)算法发现并增强图像中的模式,从而创造了有梦幻般的迷幻外观的故意过度加工的图像。我真的对解释这个复杂算法无能为力,所以我建议你们自己去 Deep Dream Generator 平台了解并探索这项技术。  

1-B8RkyQjUpy38CXkQ5SkB4Q(1).jpeg

DeepDream 图像

如果我非要从 Christine 的讲座选出最重要的一点,那就会是:    

不论是什么机器学习模型,最大的困难在于数据。

她这句话的含义是,只要你了解机器学习模型,那么实现它们就不会很难,可是,要在开始时获得一份好的训练数据集却是一件十分困难的事情。因此,如果你想加深对机器学习的理解,我建议你通过上课或者自学统计和线性代数的方法来熟悉对数据的处理。  

通过向软件开发者开源自己的工具,谷歌已经成为机器学习技术发展的前沿者。其中,最受欢迎的要数在 GitHub 库中排名第一的 TensorFlow,它是使用数据流图的可扩展的机器学习工具。此外谷歌还有另一些计划,其中包括谷歌机器学习 Ninja Rotation 项目(仅对内部员工开放)——它选拔各团队有创造力的工程师参与人工智能培训计划,使他们的产品更聪明;和 Brain Residency 项目——有点像深度学习的博士培养项目。

产业谷歌机器翻译API计算机视觉产业