2015年人工智能研究进展,有五类重要突破

2015年,人工智能和机器学习方面取得的进展着实令人惊艳。尽管现在的发展速度还处在可掌控的范围内,但业内人士都认为相关进展的速度正一年比一年快。近期该领域的大部分成果都建立在2015年初其它团队的早期成果上,而相比之下,大部分其它领域成果的参考资料可以追溯到几十年前。

做一个广泛覆盖该领域发展的总结几乎不可避免地会用到大量听起来拟人化的描述,而本总结也确实如此。但这样的比喻只是用于谈论这些功能的方便的捷径。重要的是要记住,即使许多这些功能听起来都很像是具有(像人类一样的)「思想」,但它们通常和人类认知的工作方式并不十分一样。这些系统全都是功能性和机械化的,而且每一种的应用范围都很狭窄,尽管这种情况正在逐渐减少。警告:阅读本文时,这些功能可能会由稀奇变得平淡。

2015年智能领域最大的进展都可以归入到五个分类中:跨越不同环境的抽象能力(abstracting across environments)、直观概念理解(intuitive concept understanding)、创造性抽象思维(creative abstract thought)、虚构想象(dreaming up visions)和敏捷灵巧的运动能力(dexterous fine motor skills)。在每个方面,我都会举出几个取得突破性进展的案例。

跨越不同环境的抽象能力

人工智能领域长期以来的目标是实现通用人工智能,即能够同时在不同领域内学习和行为的单个学习程序,它能够传递一些学到的技能和知识,比如说,学习制作饼干,并将其应用到巧克力蛋糕的制作上,结果甚至比其它方式更好。这种通用性上做出的重大迈进由Parisotto、Ba和Salakhutdinov 提供。他们在DeepMind开创性的DQN(深度Q网络)基础上打造一个系统,论文于去年年初发表于《自然》,该系统学会了玩很多不同的雅达利游戏。

该团队并没有为每个游戏采用不同的网络,通过深度多任务强化学习(deep multitask reinforcement learning)和深度迁移学习(deep-transfer learning)的结合,该团队在不同类型的游戏中使用了同一个深度神经网络(deep neural network)。这不仅导致了在多个不同游戏中成功的单个实例,还导致了可根据在其它游戏中记得的知识更好更快学习新游戏的实例。比如,它可以更快学会一个新的网球游戏,因为它已经从玩乒乓球中获得了这个概念——利用拍子击打球的有意义的抽象。这还算不上是通用智能,但它解决了实现这一目标的一个障碍。

在不同的模式中推理是2015年的又一亮点。艾伦人工智能研究所和华盛顿大学一直在进行人工智能考试方面的工作,多年的努力让考试水平从4年级提升到了8年级,而2015年他们宣布开发出了通过SAT几何部分考试的系统。这样的几何考试包含了图表、增补信息和文字题。在狭窄一些的人工智能中,这些不同的模式通常都是作为不同的坏境分开分析的。这一系统结合了计算机视觉和自然语言处理,在同一个结构化的形式中同时将两者作为基础,然后应用几何推理回答多项选择题,使其水平达到了美国11年级学生的平均表现。

直观概念理解

一个更为通用的多模式概念基础(multimodal concept grounding)方法从过去几年的深度学习中出现:亚符号知识和推理(subsymbolic knowledge and reasoning)被系统明确理解,而不是被明确地编程甚至被明确地表现出来。2015年在与我们作为人类相关的亚符号概念的理解上取得了一个体面的进展。这一进展能帮助解决古老的符号基础问题——符号和文字是如何获得意义的。最近,实现这一基础的日益流行的方法是通过联合嵌入(joint embeddings)——深度分布式表征(deep distributed representations),其中同一概念上不同的模式或观点在一个高维的向量空间中处于非常接近的位置。

2014年,这一技术帮助实现了自动编写图像标题的功能,而2015年,一个来自斯坦福大学和特拉维夫大学的团队将这一基本概念扩展到了联合嵌入图像和3D形状上,搭建起了计算机视觉和图形的桥梁。然后Rajendran等人将联合嵌入方法进行了扩展以同时支持在不同模式和不同的语言中多个有意义的相关映射的汇合。随着这些嵌入越来越复杂和细致,它们可以成为更复杂人工智能技术的主要推动力。Ramanathan等人用它们打造了一个系统,该系统能学习来自照片集和字典的不同类型的行为之间有意义的关系模式。

正如深度学习被预测的那样,随着单一系统越来越多地能进行多个任务,数据的特征和所学的概念之间的界限将变得模糊。这种深度功能实现的另一个示范来自康奈尔大学和圣路易斯华盛顿大学的一个团队,他们使用一种深度网络的权重的维数减少形成了一种卷积特性的表面,那能简单地过渡到有意义地和自动地改变真实照片的特定方面,比如,改变人的面部表情或年龄,或给照片上色。

7

深度学习中的另一个障碍是他们需要大量训练来产出结果。而人类则通常能从一个单一案例中学习。Salakhutdinov、Tenenbaum和Lake通过一种使用了单个案例中的贝叶斯程序归纳法(Bayesian program induction)的人类水平的概念学习技术克服了这一差距。然后这一系统能用来,比如,画出有别于人类画出的符号的符号变体

创造性抽象思维

在理解简单概念之上还有掌握因果结构——理解如何将想法结合在一起让事情发生或按时间顺序讲一个故事——并根据这些理解创造事物。在DeepMind的神经图灵机和Facebook的记忆网络的基本概念上,深度学习和全新存储架构的结合让2015年这个方向的发展大有希望。这些架构给深度神经网络中的每一个节点都提供一个简单的存储接口。

Kumar和Socher的动态记忆网络(dynamic memory networks)在记忆网络上使用更好的对注意力和序列理解(attention and sequence understanding)的支持获得了提高。和原来一样,这个系统可以阅读故事并回答有关问题,暗含20种推理方法,包括演绎、(deduction)、归纳(induction)、时序推理(temporal reasoning)和路径查找(pathfinding)。但它从未有过这些推理模式的编程。然后Weston等人最近的端到端记忆网络(end-to-end memory networks)增加了这种能力,以在每个输出符号中执行多重计算跳数(multiple computational hops),将模型能力和表现度扩展到能捕捉乱序访问(out of order access)、长期依赖(long term dependencies)和无序集合(unordered sets)等事情,进一步提高类似任务的准确性。

当然程序本身也是数据,而且当然它们也使用了复杂的、有因果的、结构化的、合乎语法的、序列化的性质,所以这个方法中编程是成熟的。2014年,神经图灵机证明程序的深度学习是可能的。2015年,Grefenstette等人展示了程序如何被转换的方式,或者说通过使用一种新型的基于记忆的卷积神经网络(RNN:recurrent neural network;其中的节点可以直接访问不同版本的数据结构,如堆栈和队列),一般性地从样本输出得到结果,这比神经图灵机高效得多。DeepMind的Reed和de Freitas最近也展示了他们的神经程序转译器(neural programmer-interpreter),它可以代替控制更高水平的和特定领域的功能的更低端程序。

8

另一个擅长利用对背景的时间理解并应用其来创造新的人工作品的案例是2015年开发的一个低级但有创意的视频总结功能。首尔国立大学的Park和Kim开发了一个名叫连贯递归卷积网络(coherent recurrent convolutional network)架构,并将其用于从一系列图像中创造新颖又流畅的文本故事。另一个包含了因果理解、假设和创造性抽象思考的模式是科学假设。塔夫茨大学的一个团队将遗传算法和基因通路模拟(genetic pathway simulation)结合起来创造了一个系统,该系统有史以来第一次用人工智能发现了重要的新科学理论: 扁形虫到底是怎么有能力稳定地再生身体的?几天的时间它就解决了困扰了科学家一个世纪的问题。这明确回答了那些为什么要给人工智能好奇心的问题。

梦想新场景

2015年,人工智能不停地写程序、游记和科学理论。现在还有一些人工智能可以想象,或更技术一点的说法,幻想(hallucinate)有意义的新图像。深度学习不仅擅长模式识别,还确实能进行模式理解,并继而进行模式创造。

一个来自麻省理工学院和微软研究院的团队开发了一个深度卷积逆图形网络(deep convolution inverse graphic network),该系统包含了一种特殊的获取图形代码层中神经元的训练技术,可以对图像进行差异化以得到有意义的变换图。在完成这样的任务时,它们深度学习一个图形引擎,有能力从其接收到的新2D图像中理解3D形状,并能图像式地想象拍摄角度和光照改变时会发生的事。

来自纽约大学和Facebook的一个团队设计了一种通过其它图像中的元素的有意义且合理的结合生成新图片的方法。使用一种对抗网络金字塔(pyramid of adversarial networks)——其中一部分尽力产生实际图像而另一部分则评价这些图像看起来有多真实——他们的系统在想象新的图像上越做越好。尽管网上的例子的分辨率非常低,但我看到过一些离线的让人印象深刻的高分辨率结果。

尽管利用场景渲染器处理符号和有限的词汇已经有一段时间的历史了,但2015年我们看到了一种纯神经系统以一种没有直接编程的方式做类似的事。这个来自多伦多大学的团队应用注意力机制(attention mechanism)基于每次请求中有多种描述方式的每个组件的意义来逐渐生成图像。因此,现在机器人可以梦见电子羊了。

9

2015年甚至在新的动画视频剪辑的计算想象方面也有让人惊叹的进步。一个密歇根大学的团队创造了一个深度类比系统(deep analogy system),该系统能够识别示例中的复杂暗含的关系,并能将该关系应用为一种查询案例的生成转换(generative transformation)。他们已经将其应用到了一些生成应用中,但其中最让人印象深刻的是这个演示(下面视频中10:10-11:00的部分),其中基于一个从未被见过的角色的单个静态图像生成了一段这个动画角色的新短视频,以及另一个不同角色不同视角下的比较视频。

尽管视频中所使用的图像生成方式是为了便于演示,但他们的计算想象(computational imagination)方面的技术可以跨多种领域和模式得到应用。比如可以想象将其用于声音或音乐等。敏捷灵巧的运动能力2015年人工智能领域的进步并不只局限在计算机屏幕上。 

2015年初,德国的一个研究灵长类动物的团队记录到了灵长类动物的手部运动与相应的神经活动之间的联系,这让他们可以基于大脑活动预测正在发生的精细动作。他们也能将这些相同的精细运动技巧教给机器臂,以期打造神经强化的假肢。 2015年中期,一个加州大学伯克利分校的团队公布了一种让机器人掌握精细运动技能的更通用且更简单的方法。他们使用基于引导策略搜索(guided policy search)的深度强化学习让机器人盖瓶盖、用锤子背移除木板上的钉子以及其它日常工作。 

这些是对人类来说小菜一碟对机器来说却很困难的工作,这个团队的系统在这些人物的灵活性和速度上可与人类媲美。实际上它通过尝试使用手眼协作完成任务而学习这些行为,并通过练习,在少数几次尝试之后重新修正自己的技术。

其他值得关注的领域这里没法列出一个2015年人工智能和机器学习领域里精彩成果的完整列表,这一年中还有很多基础的发现和进展,包括我认为的一些比以上任何技术都更有革命性的成果。但它们都还处在早期的发展阶段,所以没有被包含在这里。2015年确实有一些让人印象深刻的进展。但我们期望能在2016年见到更多。2016年,我期望看到更加先进的深度架构、更好的符号和亚符号的整合、一些亮眼的对话系统、一个最终掌握围棋的人工智能、用于更复杂机器人计划和机动控制的深度学习、高质量的视频总结和更多有创意的高分辨率的虚构;这些应该都会发生。而更让人兴奋的是那些我们无法预料的进展。

本文由机器之心编译出品,原文来自FHL,作者Richard Mallahy,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。

入门
登录后评论
暂无评论
暂无评论~
返回顶部