2016/12/18 12:53

机器之心独家对话吴恩达：很多技术其实是中国最先开始应用的

吴恩达，百度首席科学家、百度大脑项目负责人。在最近的百度语音开放平台三周年主题活动上，机器之心对这位与 Geoffrey Hinton、Yoshua Bengio、Yann LeCun 齐名的人工智能专家进行了专访，深度了解了百度的人工智能研究、吴恩达的人工智能之路，以及更多的有关人工智能技术的话题。

一、在百度的人工智能研究

2014 年 5 月 16 日，百度官方宣布建立硅谷实验室并任命吴恩达作为首席科学家，领头百度北京与硅谷的实验室。当时，百度投入了 3 亿美元在硅谷建起专注人工智能的实验室。

但吴恩达来到百度，并非重头开始建立深度学习。在 2013 年，百度就已建立深度学习研究院（IDL），并在图像识别、基于图像的搜索、语音识别、自然语言处理与语义智能、机器翻译等领域做出重大进展。当时，IDL 由余凯（2012 年加入百度，2015 年离职）组建，百度 CEO 李彦宏任院长，余凯任常务副院长。

加入百度之后，吴恩达做了一件事。「他订购了 1000 个 GPU，并在 24 小时内得到。而在谷歌，他可能几周或几个月才能得到。」当时深度学习创业公司 SkyMind 的联合创始人 Adam Gibson 在一次采访中曾这么说道。

百度之前从未买过这样的硬件。在这样的支持下，吴恩达在百度建立了一个进行深度学习的 GPU 集群，使得百度成为了世界上第一个建立深度学习 GPU 集群的公司。几年来，百度不断在 GPU 和超级计算机方向做投入，加大深度学习的研究。

在加入百度之后，曾帮助谷歌建立 Google Brain 的吴恩达也在百度建起了「大脑」。

图片：百度大脑官网

从百度大脑的官网，我们就可以明晰的看到吴恩达在百度的人工智能研究：机器学习、语音技术、图像、自然语言处理、用户画像。

机器学习

今年 9 月份，吴恩达在百度世界大会上宣布开源深度学习平台 PaddlePaddle。PaddlePaddle 的前身是百度于 2013 年自主研发的深度学习平台 Paddle（Parallel Distributed Deep Learning，并行分布式深度学习），一直为百度内部工程师研发使用，并且已经做出了一些实际的产品，较为成熟。

据介绍，PaddlePaddle 是一个云端托管的分布式深度学习平台，支持 GPU 运算，支持数据并行和模型并行。对于序列输入、稀疏输入和大规模数据的模型训练有着良好的支持，仅需少量代码就能训练深度学习模型。

这是在谷歌宣布开源 TensorFlow 之后，又一科技巨头开源的深度学习平台。

不到一个月，百度再次宣布开源基准工具 DeepBench，可对硬件平台的深度学习性能进行评估，帮助硬件开发人员优化深度学习硬件，从而加快深度学习研究。

语音技术

「百度大脑已经有好几种不同的人工智能技术，其中比较成熟的就是我们的语音技术。」吴恩达在百度语音开放平台三周年的主题活动上说。

长久以来，人与机器交谈一直是人机交互领域内的一个梦想。最近几年来，随着深度神经网络的应用，计算机理解自然语音的能力也有了彻底革新。但人机的自然交互，涉及到语音方面的多项技术。在此次主题活动上，吴恩达谈到了百度在语音识别、语音合成、语音输入方面的研究。

「这几年来，我们的团队在不断地优化语音识别系统，在 2012 年开始使用 DNN 模型，后来有比较好的特征，之后开始用 Sequence Discriminative Training，也开始使用 LSTM 模型，加上 CTC，今年我们的团队开发了 Deep CNN 模型，效果在不断进步，这就是我们的语音识别系统。」

百度于 2015 年 11 月发布的 Deep Speech 2 已经能够达到 97% 的准确率，并被麻省理工科技评论评为 2016 年十大技术突破之一。

语音识别的记录不断在被刷新，今年微软在英语语识别上准确率的突破也几乎媲美人类。但是，使用计算机生成语音——这个过程通常被称为语音合成（speech synthesis）或文本转语音（TTS）——仍在很大程度上基于所谓的拼接 TTS（concatenative TTS），其中有一个由单个人录制的大量短语音片段构成的非常大的数据库，然后再将这些短语音组合起来构成完整的话语。

今年 9 月份的时候，谷歌 DeepMind 爆出在语音合成上的突破性研究——WaveNet，将机器语音合成的表现与人类之间水平的差距至少缩减了 50%。

「我们的语音合成模型也变得越来越好。这几年来我们在好几个技术方面有比较大的突破，语音合成效果变得越来越好。现在百度在中国语音合成的能力达到业界领先的水平。」据百度讲，百度情感合成技术主要聚焦在为合成语音「加入情感」，目前可达到接近真人发声效果。它们在今年早些时候曾利用此技术，复原已逝明星张国荣的声音。

2016 年，我们也看到了深度学习在图像（识别准确率、风格迁移）、自然语言处理、机器翻译（谷歌神经机器翻译系统）等其他领域取得的最新进展。

比如在自然语言处理任务上，序列到序列模型的注意实现了很大的进展。在后续的专访中，吴恩达表达了自己的看法，「从研究者的角度来看，未来几年有非常多有可能带来突破的思想，它们有可能能够以全新的方式创造出更好的自然语言处理系统。比如说，在词嵌入（word embedding）上，我们可以看到仍有很大的进展。在跨模型学习上，也有一些研究成果。当你同时学习计算机视觉和自然语言处理的时候，那是非常激动人心的。」

在研究上，吴恩达认为迁移学习和多任务学习是很好的研究方向。他拿百度的 NLP 团队在 2015 年研究举例说，「如果同时学习多个语言对之间的翻译，效果会比同时学习一个语言对的效果好。」

当时，谷歌的神经机器翻译的出现引起了业内的极大关注。但在机器之心之前对百度 NLP 团队的专访中，我们了解到百度的在线翻译系统一年前就应用了基于神经网络的翻译方法。去年百度在 ACL 会议上发表论文《Multi-Task Learning for Multiple Language Translation》，探讨用 NMT 技术解决多语言翻译及语料稀疏的问题，这也就是吴恩达上面所说的多任务学习。

说到谷歌的神经机器翻译，我们依此为例向吴恩达追问技术到产品的部署问题。

吴恩达回应说，「中国、美国和其它地方的公司在实现先进人工智能的产品部署上都动作很快。但很多人并不知道很多部署实际上是中国的公司最先开始的，虽然不是全部，但也不少。就拿使用神经网络来为机器翻译进行序列学习的特定例子来说吧。实际上，百度比谷歌更早搞明白如何开发和部署它。除此之外，我们还能找到很多首先在中国被开发出来或产品化的技术。」

他还提到，「中国科技行业的发展速度是激动人心的。然而现在却有一个令人吃惊的事实摆在我们面前：很多东西是最先在中国实现的，可能一年之后才传入美国，但人们首先想到的还是美国的例子，而不是中国的。」

也许这是对中国人工智能研究实力的一次很好回应。

今年 10 月份的时候，白宫发布的《国家人工智能研究与发展策略规划》报告中称中国的人工智能研究已经走在了美国前面。在提及「深度学习」或「深度神经网络」的期刊论文数量上，中国在 2013 年就超越了美国。而且有媒体称，中国的相关论文不仅数量上远超其他国家，质量上的表现也毫不逊色。这一消息受到了业内许多人士的质疑，认为数量不谈，质量上肯定还有很大差距。

众说纷纭，难以有一基准评出高低。但高盛近期的一份调查报告认为，人工智能前沿的参与者可能会继续来自美国和中国。

人工智能之路

1976 年初生，吴恩达今年刚好 40 岁，不惑之年。他与 Geoffrey Hinton、Yoshua Bengio、Yann LeCun 合称为深度学习「四大天王」，但有人曾质疑吴的人气为何这么高？

在 VB 较早的一篇专访中是这样评论吴恩达的，「Bengio 在训练神经网络上取得很大进展，LeCun 开发了卷积神经网络，Hinton 普及了受限玻尔兹曼机。而吴采用最好的，并进行部署与改进。」

谈起吴恩达，我们会想到他做过哪些事？取得过哪些成就？

吴恩达出生于伦敦，父亲是一位香港医生。吴恩达年轻时候是在香港和新加坡度过的，父亲对人工智能在医疗领域的应用的兴趣影响到了他。

他告诉我们，「当时我还在新加坡，我的父亲是一位医生，他对人工智能在医疗领域的应用很感兴趣。所以当时我就很幸运地有些人工智能方面的书。我很小就开始学习人工智能，确切地说，是我 12 岁的时候。我 16 岁时，很幸运地进入新加坡国立大学做实习。在那里，我开始研究神经网络，甚至和教授一起写了一篇小的研究论文。那篇论文今天看来不怎么样，所以我也就不推荐你们读了。不过打那时起，我就对神经网络以及它们从数据中学习的能力，非常着迷。」

21 岁时，吴恩达获得了卡内基梅隆大学的计算机科学学士学位。之后他在 1998 年获得了麻省理工学院的硕士学位，并于 2002 年获得了加州大学伯克利分校的博士学位，导师是 Michael I. Jordan。

在拿到博士学位后，吴恩达开始了在斯坦福大学的工作。后来，他成为了斯坦福大学计算机科学系和电子工程系副教授，人工智能实验室主任。

2010 年，时任斯坦福大学教授的吴恩达加入谷歌开发团队 X Lab，作为顾问。他是较早从学界加入产业界的研究人员之一。

从 2010 年到今年，随着人工智能、深度学习的兴起，越来越多优秀的学术界人才被企业所拉拢——Geoffrey Hinton、Russ Salakhutdinov、李飞飞。这一现象的加剧引起了业内的一阵恐慌，害怕优秀学者的流失会影响人工智能人才的造血。

谈到这一现象吴恩达观察到了不一样的角度，他认为近期的另一个变化就是公司也在创造人工智能人才，可能创造人才的规模要比学校更大：

「因为极大的缺乏人才，所以百度这样的公司的招聘部门都投入很大。这也是为什么百度里有无数关于深度学习、计算机视觉、自然语言处理、语音识别的课程，我们会常规性的训练职员，从而让他们更有所长。

事实上，百度硅谷办公室已经有了这样的荣誉：硅谷学习人工智能的地方。所以，我认为除了大学之外公司成为创造更多人工智能人才的地方来帮助我们做激动人心的工作，这是一个非常有前景的发展，这就是我们所面临的。」

教学课程，是吴恩达的另一荣誉。

2008 年，吴恩达发起了「Stanford Engineering Everywhere」（SEE）项目，把斯坦福的许多课程放到网上，供免费学习。他自己也教了一些课程，如机器学习课程，包含了他录制的视频讲座和斯坦福 CS299 课程的学生材料。2011 年 8 月时，Coursera 作为一家公益创业公司正式成立，并逐渐成为了世界上最大的 MOOC 平台之一。

同样是 2011 年，吴恩达与 Jeff Dean、Greg Corrado 联合创立了谷歌大脑。当时，吴恩达向谷歌 Jeff Dean 提及了自己在 X 内部实验的项目 Project Marvin，然后他们用自己的空余时间催生出了谷歌大脑（后来拉来了有神经科学背景的 Greg Corrado）。

在谷歌大脑期间，最出名的案例就是他们所开发的人工神经网络通过观看 YouTube 视频，自主学会识别哪些是关于猫的视频。这个案例为人工智能领域翻开崭新一页。

从2002年博士毕业任教到现在成为百度首席科学家，吴恩达 14 年中在谷歌、斯坦福、百度都带领、扶持过一些成功的人工智能团队。基于这些经验，他近期曾在哈佛商业评论上撰文呼吁大部分有数据但缺乏深度人工智能知识的公司来设立首席人工智能官。

他对我们解释说，「我们都知道人工智能意味着什么，在目前的发展环境下，公司需要重新考虑自身业务如何与新技术相结合以获得竞争优势。越来越多的公司雇佣了熟悉人工智能的高管，我认为这很快就会形成一个特定的职位。我认为有专人来从事这一工作会使公司的运转效率更高，这个人需要拥有足够的技术知识，对人工智能的发展有独到的见解。所以首席人工智能官需要通晓人工智能的运行方式，而不仅仅是具有技术知识，它需要有开阔的眼界，明白如何将技术用于促进商业发展，为公司带来效益。」

理论百度吴恩达机器学习语音识别产业