对话Yoshua Bengio:没有可与深度学习竞争的人工智能技术

在 2016 年 9 月 21 日,蒙特利尔举办的 cdlm 2016 大会上,Yoshua Bengio、Yann LeCun、Joëlle Pineau 三人发表了精彩的主题演讲。机器之心在北美的小伙伴对该会议进行了跟踪报道,并有机会对 Yoshua Bengio 和 Yann LeCun 进行问题采访。此篇文章是 Yoshua Bengio 演讲以及机器之心对其采访问题的整理。因大会全程法文(PPT 也是),所以对 PPT 就不做过多展示。

演讲:Yoshua Bengio

特别感谢:石涛 (帮忙法语转英语的朋友)

现场报道:王双栋、Chain Zhang

报道准备:赵巍、玉喜、李勇、Yanchen

编译:杜雪、吴攀

点击这里查看微信文章获取采访录音。

采访内容:

机器之心:有什么未来可以与深度学习竞争的人工智能技术吗?

Yoshua Bengio:没有。

机器之心:你强调了神经科学所带来的灵感,你认为新的深度学习研究者应该接受一些怎样的神经科学训练?反向传播真的是一种近似生物学习的过程吗?

Yoshua Bengio:我写了一些关于反向传播和神经科学的论文,我认为弥合对神经科学的理解与机器学习比如反向传播之间的差距非常重要,因为大脑必须使用一些非常强大的东西。我们现在还有很多无法回答的问题。这是非常有趣的探索,也是非常基础的科学研究。

机器之心:你有什么深度学习方面的书推荐吗?

Yoshua Bengio:他们需要大量阅读论文和专业书籍,比如我和Ian Goodfellow合作的那本。他们还需要练习,真正的投入进入,可以使用现有的packages,做一些试验,用数据来训练自己的网络,调整相应的参数,并熟悉算法的使用过程。

机器之心:数据科学比赛有什么作用?

Yoshua Bengio:参加比赛是很好的学习方式,可以挑战自我。你可以阅读论文,论文中会提到很多数据集,你可以拿来与自己的比较,这是一个好方法,重复论文中的试验也是一个好方法,虽然很难。


Yoshua Bengio 大会演讲内容:

9 21 16 6 31 PM Office Lens.jpg

我将在这里谈一谈发生在人工智能领域的这场革命。它是什么?然后我们会谈一谈深度学习。我会从便于理解的内容入手,也就是自动驾驶汽车,它还未实现,但得益于视觉研究的深入,它已有相当可观的进展。这种视觉理解之所以成为可能,乃是得益于深度学习和认知网络的发展,我们稍后会谈到它们... 也许你们中的一些人已经开始与你的手机聊天了?随着我们将与这种变形了的计算机进行交互,这种事会开始占据我们越来越多的空间。过去几个月里,也许你听到过一项引起了人们广泛讨论的突破成果:一台使用了深度学习和强化学习的计算机击败了世界围棋(一种复杂的中国棋盘游戏)冠军,在这之前人们普遍认为计算机要想成功击败世界冠军可能需要几年甚至几十年,而它现在就做到了。

9 21 16 6 32 PM Office Lens 1.jpg

那么到底发生了什么?的确人工智能是循序渐进的耐心工作的成果,而且它总是站在巨人的肩膀上,并且这些进步在某种程度上促成了转折点——我们可以在新服务中利用这些成果来生产新东西,进行经济转型以及改变社会。正如人们所写的那样,我们正在经历另一场工业革命,它并不是简单地增加人类的机械力;计算机将增加人类的认知能力和智力。我谈到了深度学习,因为这些变化和突破在很大程度上正是由于深度学习的进步。所以它是什么呢?

它始于十年前,这得感谢加拿大高级网络研究所(Canadian Institute of Advanced Network Research/ICRA),它资助了这项在那段时间被认为过时而不受欢迎的研究,几个傻瓜仍然相信这些受大脑概念所启发的想法,它们想做更进一步的研究。经过了数十年的人工神经网络研究之后,这项研究进入到了深度神经网络领域,这是过去几年所发生的事情的一点点起源。

所以在你们讲人工智能之前,我会告诉你们我真正感兴趣的是去理解我们所能实现和理解的数学原理和信息技术,这能帮助我们解释「智能(intelligence)」。这是广义上的智能,它可以是人类和动物,当然它可以用来构建智能机器。这也多亏了这个事实:我们可以使用能够一步一步发展的机器进行实验。那么智能是什么?

这不是我们在社区中达成的几件共识,但我们足以一致同意的是:智能与智能行为相联系并为一个系统/代理人采取好的决策和行为,我们需要知识。自 50 年代初开始的那个有关基本智能的基本问题是:计算机如何能够获得使它们行动起来更加智能的知识?上文所描述的研究已经运用符号的经典基本智能方法进行了几十年,这个著名的专家系统并没有真正地解决问题,因为它试图将我们所了解的知识直接提供给计算机;但遗憾的是我们知道但我们无法向机器解释,我们不能为一台计算机设计一个程序来做这样的事,因为有许多知识是凭直觉获知的。

真正效果惊人的解决方法是去教计算机我们自己获取知识的方式,通过观察、案例分析、模仿人类、结合数据,最终我们拥有越多的数据,计算机就可以使用越多的信息来了解世界的某一方面——世界可以用数据进行阐释。

因此这门探讨生物系统或计算机如何能够从样本中学习的科学是一门有关学习的科学,尤其是机器学习。所以近几十年中所孕育的这个突破却主要在过去的 3、4 年间才显露出来,深度学习是一种特殊的机器学习方法,它显然滋养于机器学习领域所取得的大量研究成果,而且其中有着更多的重要思想。也就是说,比我所坚持的两个思想多多了。

其中一个是表征(representation)的思想。这是说计算机不仅要去学习一个任务,而且要学习如何表现那些表征了声音、词、句子的信息。第二个思想是我们不仅要学习表征,还要学习多个层次的表征,而且我们必须要将这些表征的不同层次理解为抽象的层次。为什么这很有趣呢,因为一个人能够让计算机建立越多的抽象层次,它就能更好地了解世界,从而更好地生成情景,而这才是关键。然后计算机就会在编辑和理解单词、机器翻译、自然语言理解、机器人方面出现巨大改进,我今天也会给出一些例子。

最近我们开始结合表征学习的思想,它使得计算机能将来自不同资源的表征放在一起,比如图像和短语的表征。所以这里我们看到一个例子是说计算机完全做到了图像中的对象识别,计算机可以识别出图像中出现了哪些物体及其位置。左边是一个计算机要处理的简单例子,阅读它并回答一个相关背景的问题。而底部则说明了我们不久前在实验室所做的一些事情,我们在这个实验室将这些能力结合了起来,在那里计算机会看到一张图片(例如左侧一张公园中的女人的图片)后将会生成一句法语「一个女人开始在公园里掷飞盘」。

9 21 16 6 39 PM Office Lens.jpg

因此计算机不仅能解释图像,还用自然语言生成单词序列,这里用的是英文。就在几年前,人们还认为这种事还太过遥远,而现在它并不像我们想象中的那么困难。我们仍然还远远不能解决这个问题,但你将会看到这个方向上的迅速进步。

我将回到表征的概念上,我们做了一些事情来试着了解计算机在这些表征中所发现的东西,试着去表达单个单词。我们可以将每个单词联想成一个所谓的「向量(vector)」,它可以看做二维的一系列实数,也是一个有关计算机学习过的单词的近似,这里看不到它们,它们太小了。但我们可以放大,然后我们可以看到那些有着相似含义的单词将在表征空间中彼此靠近。不仅如此,我们还有绝对吸引人的发现:我们可以用这种表征来做类比推理。

9 21 16 6 40 PM Office Lens.jpg

所以如果我们有了包含一系列数字的向量,空间中对应于一个单词「巴黎」的点和对应于「法国」的向量表征,然后我们将两者之间的差别当做另一个向量,这个向量会告诉我们从「巴黎」到「法国」的方向。同样的方向可以应用于表征罗马到意大利。同样如果是单词「国王」和「王后」之间的表征差异,我们会得到了一些非常接近于「男人」和「女人」之间差异的东西。最后计算机能够看到对词「男人」来说词「女人」所意味的就是对于单词「王后」来说单词「国王」所意味着的东西。这是我们没有教但是计算机在无监督的情况下自己发现的一些事情。

然后我会以人们可以理解的一个例子来尝试去解释这种表征思想。如果我们看一张图片,一张数字化文字页面上的图片,在这张图片中有某些层次的表征,例如作为第一个非常粗糙的层次来说是像素,然后我们会在这张图片中识别到稍高的一个层次是边缘,它定义了物体的边缘。

9 21 16 6 43 PM Office Lens.jpg

然后你可以想象一个更高的表征层次,其中计算机可以识别到线条所匹配的部分,例如字符,而再高一层次就是线条能够结合在一起形成整体特征,然后这些特征会结合成为单词,而这就到了我们还未能掌握的地方,即一个更高层次的抽象——单词的含义。所以像我们之前所展示的那样,你看到了一个尝试去捕捉词含义的词表征,而毕竟它还不足以完成一些有趣的任务,比如你想让它捕捉到隐藏单词的含义(潜在意思),或者短语、文档背后隐藏的想法,甚至是消息的核心内容。

所以我向你展示所有这些内容,是因为在这种情况下会有若干层次的表征,词层面的表征比像素层面更为抽象,而如果我们必须作出决策并要求计算机回答一个有关该文件的问题,如果它工作在词层面的话会更容易,同样的单词可以用许许多多可能的图像来说明。我们能够以非常不同的方式来选择字符,并且我们想让计算机分离出有关字符如何被书写的细节,比如这里的「S」是什么,让它了解单词的含义等等。

因此这种表征和抽象的思想是非常重要的。我这里举的例子包括了我们所理解的表征,从而我们能够迫使计算机去遵循这些表征,但事实上在我们的研究领域,我们感兴趣的是让计算机自己去发现不同层次的表征,从第一个层次到词的含义这个层次,这些表征对我们来说很自然,但我们并不需要让计算机真的以我们的方式去学习,即使这些层次之间的关系并不明显,而机器学习被用于识别字母,当你达到更高的抽象层次时,事实上我们并不知道怎样去表征语义,而这就是为什么要拥有一个完全自动化的方法来发现这些抽象层次会变得如此重要。

所以我将以两个不那么偏技术性但会得到更多共鸣的想法作为结束:我们当下在人工智能领域所目睹的围绕这些进展的社会问题。首先,正如许多强大的科学和技术,我们对它们放任自流的风险是什么?为了不让一些人利用这一权力从而使得财富集中在少数人手中,我认为许多研究人员会希望让这些进步首先去造福尽可能多的人。我们如何安排来让事情如此进展呢?这里有一个特殊情况,即这些技术在未来几年很有潜力,例如自动驾驶汽车对就业市场有着显着的影响,这意味着一些人可能会失去工作并被机器取代。

9 21 16 6 45 PM Office Lens.jpg

我们如何确保它从人道角度出发并造福于每个人,而不让部分群众悬而待决。然后更一般地说,还有许多普通人尤其是公民应该思考的道德问题。例如数据的隐私问题,还有一些问题不仅仅……比如我想要保留我的数据并且保证无人可以访问它,但是如果我们将自己的数据分享到健康领域呢,比如它可以造福于每一个人。这有点像是疫苗,如果每个人都接种疫苗,它将能够造福于每一个人。所以我们要如何管理这其中的个人和集体的利益?

最后,正如 Valerie 所说,我所谈论的是试图将研究方向引向推动人工智能的社会型积极应用上来。显然健康、环境、教育、创造性服务将服务于世界上的大部分群体,不一定是为了即时的商业利润。有一些人提出关于人工智能长期风险的道德问题。我是那些不太害怕它的人之一。我也认为考虑这种可能性很重要,不能不经过思考就行动。

由于所有这些原因,拥有某种对话是很重要的,我希望今天可以实现它。人们可以从中参与讨论、了解问题,代表集体意志的政治家们也是对话的一部分。所以我邀请你们学习更多东西,以任何方式参与进来,无论是贡献于技术的发展,我希望公司可以遵循这些,或者是简单地作为一个公民。现在,目前在蒙特利尔有一个机会,我们有一个人工智能领域的批判性团体,特别是我领导的小组和 McGill 大学的机器学习小组。我们在该领域一共有 150 位研究人员,在任何情况下这都是世界上一个非常独特的大学水准的集结。我们刚刚收到的一项拨款,它会帮助我们发展这一科学,而且会有政府委员会来确保技术的可转化性,使它在蒙特利尔创造财富,所以这是一个挑战,如果我们能够在蒙特利尔创造一个硅谷,我们如何将一个批判性团体转型成私人企业,创建一个围绕所有这些的生态系统呢?我认为最重要的因素是吸引和留住世界上最好的人才,无论他们是来自大学还是私人领域。

谢谢。

理论
暂无评论
暂无评论~
返回顶部