在 Google I/O 首日的 Keynote 中,Google 公布了一系列新的硬件、应用和基础研究。自去年提出 AI First 战略,今年的大会上 Google 同样安排了不少与机器学习开发相关的内容,比如《教程 | 如何使用谷歌 Mobile Vision API 开发手机》。
今天是 Google I/O 的最后一天,一场讨论机器学习前沿研究与未来方向的 Session 同样不容错过。谷歌云人工智能与机器学习首席科学家李飞飞将与谷歌云部门主管 Diane Greene 等顶级专家,共同讨论 Alphabet 的机器学习研究与未来。
Dinae Greene 主持了此次对话,其他参与者包括:
Françoise Beaufays,谷歌语音识别负责人。
李飞飞,谷歌云科学家、斯坦福人工智能实验室负责人
Fernanda Viegas,谷歌高级研究员、计算设计员(computational designer)
Daphne Koller, Alphabet 旗下 Calico Labs 的首席计算官(Chief Computing Officer)、Coursera 联合创始人
Dinae Greene:第一个问题想问一下 Daphne 对深度学习革命的看法?
Daphne Koller:我认为深度学习变革非常令人振奋,改变了如今生活的许多方面。这一变革来自于许多机器学习研究员想出的算法。在此之前的十至十五年,深度学习经历了非常困难的一段时间来开发模型、动手实践更多想法和更多的先验知识。当时,我们需要考虑模型的具体细节以及它与领域(domain)的关系,因为那时你没有很多的数据,需要用更多的人类直觉替代数据从而构建模型。
随着我们有越来越多的数据,一些领域发展了,比如图像和语音都是很好的例子。我们开始用越来越多的数据替代其中的人类观念作为平衡。但过去十几年的发展为如今的进步铺平了道路,包括方法和运算算法,都是如今深度学习成功的关键。
我们可能认为大数据是所有事的关键,但我认为它是一些特定领域的解决方案,一些领域还只有中级或者少量的数据,所以这些领域还需要平衡人类直觉与现在丰富数据领域所想出的模型。
Dinae Greene:李飞飞,你之前负责斯坦福的人工智能实验室,现在又来到谷歌,希望把人工智能带给大众,对于这个转变你有什么看法?
李飞飞: 人工智能大约有 60 年历史,在科学发展历程中属于年轻的学科。在 60 年前,当机器开始进行简单的数学计算时,人们开始认真考虑阿兰·图灵提出的畅想:机器是否可以思考,是否会有一天能够拥有智能?杰出的计算机科学家 Marvin Minsky、John McCarthy 等人(均为 MIT 的学者)共同构建了人工智能作为一个学科的框架。人工智能的研究在几十年的发展中出现了很多新的技术,但一直遵循着先驱们当初的核心想法,探索人工智能思考、社交、说话、交流能力。人工智能已经有了几轮的技术大发展。从逻辑、早期的机器学习,再到今天的深度学习革命。我把这 60 年的发展看做是解决这一领域的基础问题的过程,寻找有潜力完成人工智能任务的分支学科,如机器人、计算机视觉、自然语言理解、语音识别等等。在这个过程中,我们也在不断考量自己前进的速度,试图让机器理解数据,打造新的工具。
在 2010 年左右,统计机器学习工具的成熟、网络与传感器带来的大数据以及高性能计算芯片带领人工智能从积累阶段进入了发展阶段。
人工智能发展阶段意味着人工智能开始对世界产生真正的影响了。现在只是这个新时代的开始,所有行业都会受到人工智能的影响。在 Google Cloud,我们可以看到,随着人工智能、数据和机器学习的发展,世界的格局将产生改变。目前我们在人工智能领域开发的工具和技术只是人工智能的沧海一粟。我们或许不应该对人工智能过份期望,但人工智能必然会在很多方面为我们带来帮助。
Dinae Greene:Françoise 你作为语音识别的前沿研究者,而如今语音识别应用已经非常普遍了,你能介绍下这个变革吗?
Françoise Beaufays:我大约 12 年前加入谷歌,团队中有不少人都想用语音识别做出有用而又有趣的东西来。如果你了解语音识别,那你应该知道语音识别已经存在有段时间了,但我们想做一些有趣的东西。但当时挺困难的,因为当时语音的质量不像如今,我们只能从一些有限的产品开始做起,比如识别一个人说的不算难的语音。我们只是想有所推进,但并不是很多。因为我们需要让产品足够成功,人们才会使用我们的应用,我们才有更多的数据训练模型。
所以当时我们建立了 Google 411,一个语音搜索服务。要知道,12 年前还没有 iPhone,但谷歌领导层很支持我们,到了后来所有的事情都发生了变化,我们看到了回报。
Dinae Greene:Fernanda 你希望能让数据可视化变得更大众化,对此有什么想说的?
Fernanda Viegas :我做数据可视化有十几年了。最开始的数据可视化要比现在难得多,那时计算机并不好用,能用的数据也非常少。变化的开始是我们发现不论什么地方,人们都在与数据可视化互相作用。让人兴奋的是新闻业开始应用数据可视化,讲非常复杂的故事,我们经常开玩笑说「数据可视化是统计学的 Gateway Drugs(诱导性毒品)」,因为在不知情的情况下你已经在使用统计学了,我们实在是太擅长抽象模式和勾勒轮廓了。
数据可视化正在变得大众化,它帮助人们更好的了解数据和数字的意义。人工智能方面,Geoffery Hinton 和他的同事们的人工智能可视化研究造成了非常大的轰动。人工智能或者机器学习最大的挑战是系统的空间维度太高,人们很难理解这些系统。数据可视化是让人们能站在最高点了解系统的方法之一,Hinton 开发的技术帮助我们理解不同模块如何共同发挥作用,以及它们之间关系如何,因此,我将它视作重要的进步。当然,我们同样站在用数据可视化帮助人工智能进步的开端。
Dinae Greene:接下来我们会更技术一点,Françoise 先谈一下语音识别的一些挑战。
Françoise Beaufays:因为我们每个人有不同的声音、口音、语言,所以语音识别非常复杂。语音识别一直都是基于机器学习的,神经网络的使用是非常重要的转折。语音识别很早就使用了神经网络,当时也有很多有潜力的结果,但没有计算支持。所以神经网络有曲折,而语音识别在一些基础方法上也有所进步,比如高斯混合模型。
当我们再次深入深度神经网络的时候,需要处理很多挑战,延迟问题、信号、训练等等。最终,当深度神经网络变得可靠时,它也开启了其他领域的道路。我们能够快速的从一种架构发展到另外一种,比如循环神经网络(LSTM)、卷积神经网络、CTC 等。深度神经网络的发展打开了语音识别能力的大门。
Dinae Greene:Daphne 作为 Calico 的首席计算官与机器学习顶级研究员,能介绍下你的工作吗?
Daphne Koller:很多人可能不知道 Calico,Calico 是 Alphabet 旗下的公司,致力于了解衰老的秘密,以及让人们更健康的生活。40 岁以后,不管是心血管疾病还是癌症,发病几率随着年龄增长越来越高,但我们并不知道原因。
为了了解原因,我们必须研究衰老在生物系统和分子层面上的原因。我不认为我们会永生,但可以活得更久更健康。最早加入我们的科学家之一 Cynthia Kenyan 展示了一种基因突变,可以将虫子的生命延长 30%-50% 的同时保持健康。人类也可以同样如此吗?
为了达到这个目标,我们还有很多研究要做。我们收集所有关于寿命的数据,虫子的、酵母的、苍蝇的、老鼠的还有人类的,以及他们在分子层面有什么相似之处,没有任何人有能力收集从生物层面到整个人类层面的所有不同类型的数据,包括 DNA、RNA、图像等等。
应该如何将这些数据结合起来,了解衰老的原因?如何延缓衰老、延长寿命才是最有效的?收集数据需要协作,机器学习专家可以设计模型、将数据综合起来,单打独斗是无法成功的。
Dinae Greene:李飞飞,你曾在 TechCrunch 上说视觉是人工智能领域的「killer App」,这有何含义?AI 民主化的含义又是什么?与 Google Cloud 有何关系?
李飞飞:有人问图像识别的杀手级应用是什么,我会说图像识别是人工智能的杀手级应用。有两个原因。第一个来自于自然,4.5 亿年前,生物界出现了一次前所未有的大进化,一些很小的种群脱颖而出产生了生物大爆发,这是如何发生的呢?科学家们多年来一直感到困惑。近年来,一个具有说服力的理论认为这是因为部分动物发展出了视觉,动物进化的路线由此发生了改变。4.5 亿年后,人类成为了最具智慧的有视觉生物,事实上,进化给予了我们处理复杂视觉信息的能力,因为这种能力很重要。
另一个证据来自我们生活的世界,今天,数据洪流席卷了整个世界。在 YouTube 上,人们每分钟都会上传超过 300 小时的视频;有统计显示,互联网上超过 80% 的数据是图像形式的。看看我们使用的传感器,医院、自动驾驶汽车中的设备正在不断产生图像数据。图像数据对于所有公司来说是最具价值的内容。在 Google Cloud,我们对客户提供所有类型的图像处理服务。对于计算机视觉来说,现在是一个激动人心的时代。在语音识别和深度神经网络的启发下,视觉在过去十年取得了非常多的成就。计算机视觉已从最基础的图像识别发展起来。目前物体识别和图像标注技术已经应用在 Google Photos、自动驾驶汽车等领域。
我认为,计算机视觉接下来更重要的是,视觉在交流和语言等方面占据着很重要的地位,我们讲故事、辨别事物、区分视频类别都是在进行图像识别。将计算机视觉和语言结合在一起会非常有趣。而计算机视觉在生物医疗上的潜力也引人关注。所以,计算机视觉有非常大的机会发挥作用。还有不要忘了机器人,机器视觉和机器人是分不开的,而只要人工智能还在推进,人们就会一直研究机器人。机器人需要知道自己身处何处,这需要强大的感知系统,在这里计算机视觉就能派上用场了。
所以,我认为计算机视觉是机器智能最重要的部分,它也将会改变未来公司的形式。
Dinae Greene:Fernanda,如果计算机视觉是机器学习最有前景的方向,那么你眼中的未来是什么样的?
Fernanda Viegas:回到李飞飞的话题,谷歌有很强大的计算机视觉系统。我们会不断使用它,试图探究计算机是如何处理任务的。机器学习接收大量数据,从大量可能性中找到答案。计算机视觉就像用有秘密武器一样可以理解它接收到的图像。我们非常在意其中的原理,其原因在于可解性,可修正性和可教育性。只有当我们理解了机器学习真正的过程,我们才能教育更多的人成为专家。另外,还有一个重要的地方是,通过计算机视觉,我们永远会让工作流程中有人类的参与,这对于系统的可靠性至关重要。
我想给大家讲一个在研究中的小故事。以谷歌翻译为例,谷歌翻译是大量不同语言输入进同一系统经过训练的成果。经过训练后,研究人员逐渐发现了机器学习翻译的原理。此外,我们还发现了没有料到的东西:zero-shot translation,让机器可以在此前未见的情况下进行正确翻译。在实验中,对于研究人员来说最基础的问题是:这个系统是如何解析多种语言数据的?机器学习系统是在内部构建了英语、西班牙语、葡萄牙语的模型吗?还是它将所有一切都混合在一起处理?它或许学会了所有语言的真正意义。我们对此做的是将计算机处理的过程可视化了。
有意思的是,当我们把计算机处理句子的过程可视化时,发现机器学习系统在每个语言同一句话上的相应部位中的高亮位置是一样的。这意味着机器学习学到了所有语言的共同表达方式,换句话说,我们第一次看到了「世界语」的形式。这太棒了,这就像是在看着计算机「大脑」的核磁共振照片一样:看啊,多么震撼。而当我们看到某个语言的高亮位置和大多数语言不同时,我们可以知道这个语言的翻译结果不好。
这就是可视化带来的好处:让我们能更理解机器学习,让它变得更好。在未来,我们要做的事是和李飞飞一起推动人工智能的民主化。我相信,多样性做得越好,我们的技术就越有希望。今天,人工智能还是以工程师为中心,我们正在接纳科学家、设计师等更多群体,他们带来的想法是我们从来没有想过的。有了他们,我们就能开展新的探索。
Dinae Greene:Françoise,我想问你有关语音识别的问题,未来的语音识别将会面临哪些挑战?
Françoise Beaufays:在语音识别领域中,我们面临一些需要注意的挑战。在遇到新的声音片段时,我们需要尽快让机器学会理解。例如口吃、深呼吸等现象,这些数据需要被输入到已经训练过的模型中再次对模型进行训练。例如在 Google home 上,即使这样的产品已经出现在消费者的家中,我们仍然需要收集这些产品收集到的数据改进我们的模型。我们进行了大量的模拟、研究,在训练时加入噪音,使用了大量数据。我认为最有意思的是,语音识别设备需要面对多种不同语言,我们希望谷歌的产品可以自动识别所有人说出的语言。稍作思考就会发现,这是一个很大的挑战。
如果你询问一个语言学家,他/她会告诉你世界上大约有 6000-7000 种语言,大约有 1400 种语言有超过 10 万人在使用。如果我们想要把自己的产品送到每个人手中,这就需要发挥创造性。让机器学习系统在每个语言中发挥作用。
Dinae Greene:我想问一下李飞飞对未来有什么看法?
李飞飞:我就从一个维度说一下,我深信人工智能是第四次工业革命的驱动力。如今还只是开始,但它有潜力变革人类生活、工作、交流的方式。我最喜欢的一种说法是一位哲学家曾说没有独立的机器价值观,机器价值观就是人类的价值观。这激发我的是人工智能要包含更多的科技来建立未来,因为一旦我们有更多多样性表达,我们能建立面向整个人类的技术,而非片面的技术。