机器之心编辑部

尖叫连连!这是谷歌I/O带来的新惊喜:智能助手零延迟对话、3D鲨鱼「上舞台」

北京时间 5 月 8 日凌晨,一年一度的谷歌 I/O 大会在加州山景城如期开幕。今年的大会上,除了常规的安卓 Q 版本更新以外,新手机和「家庭智能设备中心」Nest Hub 显得更加引人注目。而去年惊艳的「能和人打电话的 AI」Duplex 也有了新升级。

前有微软 Build 大会推出多个重磅产品,谷歌 CEO 桑达尔·皮查伊并不希望被抢去风头。在阵阵掌声中,一个又一个新应用与新产品呈现在了人们的眼前。

「今天我们发布的新产品和设备,有关你的工作、你的家庭和你的生活。」皮查伊在大会 Keynote 开场白中表示。

「鲨鱼上舞台」的谷歌搜索

搜索,是谷歌的核心业务。Pichai 首先介绍了谷歌搜索添加的新特征。

去年,谷歌发布 Google News 新特征 Full Coverage。如今谷歌把 Full Coverage 功能加入到了搜索中,从而更好地组织与搜索主题相关的资源。以搜索「黑洞」为例,谷歌使用机器学习识别不同类型的文章,全景展示与搜索词条相关的故事。此外,Podcasts 也将融入到谷歌搜索中。

但谷歌搜索最令人尖叫的新特征是视觉展示。使用计算机视觉增强现实,谷歌进一步强化了搜索体验:3D。

 例如搜索大白鲨,查看 3D 模式,然后可以直接把它搬到舞台中央!

当然,这一功能并非只是噱头,它还有很强的实用性,例如购买鞋子时,可以把 3D 展示拉入现实场景,看鞋子和自己的衣服是否搭配,从而提升购物体验。

搜索,只是计算机视觉技术应用的场景之一。从今天的大会上,我们可以看到谷歌在 CV 上的研究已经融入谷歌的产品生态中,例如通过 Assistant、Camera 等 APP,用户可以借助 Google Lens 识别菜单中的热门菜品;通过 Google Go,翻译图片中的外语,并进行语音诵读。

接管一切的智能助手

介绍完了视觉相关应用,进入语音部分。

去年的 I/O 大会上,Google Duplex 和人类打电话订餐馆的表演震惊了世人。但当时 Duplex 只能通过手机语音订餐馆,今年谷歌把该功能升级成为 Duplex on web,让人工智能可以帮助你在电脑和手机上自动订餐、订机票、打车了。以打车为例,新版的 Duplex 可以自动填充乘车人信息,使用者只需根据需要作出修改并确认即可。

此外,谷歌在模型压缩方面的研究也有了回报。Pichai 介绍了谷歌取得的一项新的里程碑,近年来深度学习的发使得谷歌能够把 100GB 的语音识别模型压缩到 0.5GB,从而让 Google Assistant 在移动端变得更快。

 有多快?移动端实时识别语音速度提升 10 倍!谷歌工作人员的演示引起了现场观众的阵阵尖叫。

今天的语音助手和人的对话已经接近自然,在与 Google Assistant 对话中,用户不在需要每次说「hey,Google」唤醒词,且能跨越手机上的 APP 工作,例如在短信对话框让 Google Assistant 搜索一张图片发给好友。

此外,Google Assistant 还加入了一些新功能,例如 Personal References 能够为你优化沟通结果;通过说"Hey Google, let's drive.",开启谷歌助手驾驶模式,不过这个功能要在今年夏天才会到来。

预计在今年下半年新的 Pixel 手机中,你就能看到新一代的 Google Assistant 了。

模型偏见与数据隐私

「以隐私与安全为核心,开发我们的技术」,这是 Pichai 介绍过前面如此多强大的 AI 应用之后强调的重点。

随着深度学习在我们日常生活中的应用越来越普遍,我们不得不重视神经网络的一大问题:模型可解释性。在使用大量数据训练深度学习模型时,一个普遍的担心是它们会学习到人类所拥有的偏见。

为了保证 AI 模型不会学习到这种偏见,谷歌做了大量研究提升模型透明度。

首先,Pichai 介绍了谷歌曾发布的一种方法:TCAV。

以识别斑马的模型为例,使用了 TCAV 方法,能够理解每个概念 (如条纹)对模型预测的重要性。

TCAV 相关论文:https://arxiv.org/pdf/1711.11279.pdf

除了提升模型透明度,谷歌建立「AI for Everyone」的另一种方式是保证产品的安全与私密性,让人们清楚、明白数据所带来的选择。

从 2004 年到 2018 年,谷歌为其所有的产品添加了大量安全保护特征,包括 Google Takeout、Activity Controls,以及如今谷歌账户的自动(数据)删除设置、谷歌地图的匿名模式。

「我们想要使用更少的数据,为用户做更多的事。」联邦学习为谷歌的这一愿景提供了解决方案。

2016 年,谷歌提出联邦学习用于解决安卓手机终端用户在本地更新模型的问题,从而保障数据交换时的信息安全、保护终端数据和个人数据隐私,保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习

以谷歌 Gboard 为例,单独的设备上学习无法为用户主动推荐经常用到的词汇,但加上联邦学习,就能在用户多次使用相关词汇之后自动推荐。如今,大量设备的 Gboard 都已经使用到了联邦学习,在输入时为用户推荐单词与表情。

安卓 Q:加入防沉迷功能

在搜索之外,安卓(Android)系统是谷歌今天成功的重要原因之一。在 I/O 大会上谷歌透露,今天全球约有 25 亿台正在运行的安卓设备。它已经成为了谷歌以及大多数其他公司部署新应用最优先的平台。如谷歌 AI 语音助理人工智能图像识别产品等。Android 也是 Wear OS、Android Auto 和 Google 的流媒体电视平台 Android TV 的基础。

Beta 版的安卓 Q 已经在一些开发者手中出现一段时间了,其中包括广受人们欢迎的系统级暗色模式。在华为三星推动下,安卓 Q 也加入了对折叠屏手机的完整支持:在打游戏的时候,手机在副屏幕和主屏幕(折叠屏)上可以无缝立即切换显示。谷歌智能推荐功能现在已经可以预测你下一步的动作了。而「设备上学习」功能的存在可以让手机越用越聪明。

手机好用,但过于沉迷也不是好事,谷歌特意在安卓 Q 中加入了 Focus Mode,可以让用户选择屏蔽邮件、信息的提示。谷歌表示在美国,孩子开始接触手机的年龄已经下降到 8 岁左右了。安卓 Q 也引入了家长模式,可以让父母观察孩子们的手机使用了哪些应用,并控制他们的使用时间。

安卓 Q 上内置了 Live Caption 功能,可以为任何手机正在播放的视频实时显示字幕,这是此前帮助听障人士的功能 Live Transcribe 的升级版,适用于从 Youtube 视频到相册中视频的任何视频内容。「它不仅可以帮助听障人士无障碍地接触更多信息,也可以在普通人不方便打开声音的时候安静地观看视频。」桑达尔·皮查伊介绍道。

值得一提的是,Live Caption 功能可以完全在设备端运行,在不联网甚至飞行模式下也可以实时生成字幕。这得益于谷歌在设备上机器学习方面取得的突破,他们将模型进一步缩小,使得数据可以直接在客户端进行处理,无需离开手机上传到云端,可以有效保护用户隐私。

随着 I/O 大会的召开,安卓 Q 的第三版测试也已开始,首批将在这些品牌的手机上出现,其中包括华为小米、vivo、oppo 和一加。

由于 Beta 版是面向开发者的,在安装前请三思而后行,除了所有 Pixel 手机之外,安卓 Q Beta 3 还支持华为 Mate 20 Pro、小米 9、一加 6T 等机型。Google 让 Pixel 所有者只需使用谷歌账号登录,然后选择兼容测试版的相应设备即可加入测试阶段。你可以通过这种方式获得测试版更新,就像通常用于稳定版本的系统一样。

「平价版」Pixel 手机

谷歌从未在 I/O 大会上发布新手机,但今年是个例外。今天,谷歌在 I/O 大会上发布了 Pixel 家族的两款新机 Pixel 3A 和 3A XL,并表示,这是为了让全球更多人能够接触到最先进的人工智能技术。

谷歌首次在 I/O 大会上开了场「手机发布会」,推出了 Pixel 3a 和 3a XL。

Pixel 手机永远不是硬件配置最好的那一个,不过它总会最先得到谷歌官方带来的新技术应用,如 Duplex、Night Sight 等。这些功能不受手机硬件的限制,更多的是谷歌的开发水平和利用人工智能能力的体现。谷歌特别提醒道:Pixel 3a 将会得到谷歌未来三年内所有新技术升级的保证。

两款手机都有相同的背面指纹识别、1220 万像素单摄像头(前摄像头 800 万像素)以及 OLED 屏幕,尺寸分别为 5.6 寸和 6 寸,电池容量分别为 3000mAh 和 3700mAh,据说可以至少满足「长达 30 小时的使用时间」。两款手机都有黑白粉色三种颜色可选。

在最重要的配置上,Pixel 3a 和 Pixel 3a XL 搭载骁龙 670 处理器,运存 4G,存储容量 64G。

谷歌希望新技术可以为更多人服务,但发现当今的高端手机越来越贵了,因此希望让 AI 技术能够在普通配置的手机上也能呈现。新手机就是这种思想的载体。

「Pixel 3a 保留了 3.5mm 耳机接口,并使用 AI 算法让单摄像头在各种光线下保持高拍照水准。」谷歌产品负责人 Sabrina Ellis 表示。在谷歌的展示中,低光、景深虚化、超分辨率等其他手机需要双摄像头、甚至三摄四摄实现的功能,在 3a 上都可以通过高效率的算法来完成。

使用 Pixel 就意味着可以抢先体验谷歌最新发布的各种应用,现在你已经可以用谷歌地图 AR 显示巨大的虚拟路标用来导航了。

Pixel 3a 和 3a XL 的售价分别为 399 美元和 479 美元(折合人民币 2700/3250 元),讲道理这样的价格已经可以在国内买到很多品牌的骁龙 855 级旗舰机了,可能只有喜欢尝试谷歌新 app 的玩家才会去买吧。

进军智能家居

谷歌重组了智能家居的产品线,将所有产品都集中在 Nest 旗下,希望能够让自己的智能家居设备覆盖 5 岁到 95 岁的人群。Nest Hub Max 是谷歌这次在 I/O 大会上推出最具特色的新硬件,它是谷歌的 10 英寸屏幕版本 Home Hub,是一个带有摄像头、大屏幕的智能音箱,它将成为智能家庭的控制中心,也可以作为监控摄像头或者视频通话设备。

与其他厂商声纹识别区分用户的方式不同,谷歌有一个基于人脸识别的 Face Match 功能:不同的人在 Nest Hub Max 的屏幕上看到的内容都是他们专属的。

大屏幕也让 Hub Max 可以当做一个「厨房电视」,放音乐或者用视频教你做饭。有摄像头的音箱也可以加手势识别功能,如果你的电话来了想停止音乐,冲它抬一下手就行了。

助力残障人士

在过去的一年里,谷歌曾因与政府合作军事项目而备受指责,让人怀疑谷歌变了,不再是那个坚持「不作恶」的谷歌了。在今年的 I/O 大会上,谷歌似乎竭力挽回其社会形象,致力于打造「人人可用的产品」(Accessible products for Everyone)。

大会中,谷歌多位负责人强调了其产品的可及性以及对人的帮助,尤其是对残障人士的帮助,其代表产品包括 Live Transcribe、Live Caption、Live Relay、Project Euphonia 等。

前面已经提到,Live Caption 和 Live Transcribe 都是语音转文字的应用,可以帮助到全球 5 亿的听力障碍者。

一位听力障碍人士在利用谷歌的 Live Transcribe「听」其他人讲话。

Live Relay 是一款帮助聋哑人士接电话的应用。电话接通后,语音助手会将聋哑用户想要表达的内容生成语音展现给对方,同时将对方的语音信息转换为文字呈现给聋哑人士,将电话界面转换成了聊天窗口。这款应用也适用于渐冻症等特殊疾病人群。

Project Euphonia 是专为中风、口吃等语音不清晰的人群打造的项目。这些人无法使用普通的语音模型,需要对模型进行个性化训练。研究人员收集了大量来自目标人群的语音数据,使得这类人群也能用上谷歌最新的语音技术,提高其产品的可及性和公平性。

Bert 太牛,上台吹一波!

在今天上午的 keynote 中,最后上台的是 Jeff Dean 大神,这在之前的谷歌 I/O 中极为罕见。

在一片掌声中,Jeff Dean 介绍了谷歌 AI 近来取得的新成果,特别是在自然语言理解方面。Jeff Dean 说,「我们想要计算机有人类一样流畅的语言能力」。因此过去数年,谷歌 AI 在这方面做了大量工作,特别是 2017 年提出 Transformers,取得了极大进步。

后来,在 Transformers 的基础上,谷歌提出 Bert,在 11 种语言处理任务上都取得了顶尖成果,引发业内巨震。如今,Bert 模型广为人知……

除了 Bert,Jeff Dean 在演讲中简略提及了 TensorFlow 框架,谷歌 AI 医疗团队的 Lily Peng 介绍了一项她们在医疗领域的最新研究成果:从 CT 图像识别肺癌,相关论文将发表在 Nature Medicine 期刊上。

小结

未来你的生活或许会是这样:早晨,在厨房打开 Nest Hub 的食谱学做早餐,打开 Pixel 手机看到明天要去的城市,使用 Duplex 租一辆车,谷歌地图会帮你计划好行车路线——而在整个过程中,你不需要动一个手指。这就是谷歌 I/O 大会为我们展示的 AI 智能时代新体验。

产业Google I/O 2019谷歌
1
相关数据
华为机构

华为成立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。华为的主要业务分布在无线、网络、软件、服务器、云计算、人工智能与大数据、安全、智能终端等领域,发布了5G端到端解决方案、智简网络、软件平台、面向行业的云解决方案、EI企业智能平台、新一代FusionServer V5服务器、HUAWEI Mate等系列智能手机、麒麟系列AI芯片等产品。目前华为拥有18万员工,36所联合创新中心,14所研究院/所/室,业务遍及170多个国家和地区。

http://www.huawei.com/cn
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

语音助理技术

虚拟助理(virtual assistant)是一种能替个人执行任务或服务的软件代理(software agent)。有时候“聊天机器人”泛指虚拟助理,亦或专指网络聊天使用的软件机器人(有时候更专指娱乐而非实用的网络聊天)。但也可以指一种职业,或者企业组织,其乃是透过网络执行远端服务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

三星机构

三星集团是韩国最大的跨国企业集团,同时也是上市企业全球500强,三星集团包括众多的国际下属企业,旗下子公司有:三星电子、三星物产、三星航空、三星人寿保险、雷诺三星汽车等,业务涉及电子、金融、机械、化学等众多领域。 三星集团成立于1938年,由李秉喆创办。三星集团是家族企业,李氏家族世袭,旗下各个三星产业均为家族产业,并由家族中的其他成员管理,集团领导人已传至 李氏第三代,李健熙为现任集团会长,其子李在镕任三星电子副会长。

Lily机构

自2013年确立“商务时装”这一定位,短短几年间,Lily已在国内开设900余家品牌店铺,入驻上海、北京、广州、深圳、武汉等270个城市,并在海外市场开设零售店铺逾70家。

http://www.lily.sh.cn
小米机构

小米是中国一家专注于智能硬件、智能家居以及软件开发的企业,于2010年4月6日成立,总部位于中国北京,截至2018年3月31日,员工人数近1.45万。 2010年8月及12月,小米发布了基于安卓系统深度定制的第三方固件MIUI及首款移动应用米聊。2011年8月16日,小米正式推出了其第一款硬件产品——小米手机(一代),开创了以互联网线上抢购高配置、低售价的智能手机销售模式。 通过旗下生态链品牌MIJIA(米家),小米的产品线从智能手机及耳机、移动电源等手机周边产品和音箱、手环等相关移动智能硬件,扩展到智能电视、机顶盒、路由器、空气净化器、电饭煲等家居消费产品。截至2018年3月底,小米已进入全球74个国家和地区的市场,并在其中15个市场智能手机出货量名列前五。 2012年,小米全资买入北京多看科技有限公司,进入电子书阅读领域。多看阅读是旗下网站,并有相应的App。2018年,业界传闻小米有计划生产电子阅读器。 2018年5月3日,小米正式向香港交易所提交IPO申请[6],于2018年7月9日以同股不同权的方式挂牌上市,并计划于7月23日纳入恒生综合指数。 2018年11月19日,美图公司与小米集团宣布达成战略合作伙伴关系,合作期限30年。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

暂无评论
暂无评论~