李忠阳 丁效 刘挺作者

Yann LeCun在IJCAI-2018开幕式上的演讲:我们需要一个世界模型

摘要:国际人工智能领域顶级会议IJCAI 2018主会于2018年7月16日在瑞典首都斯德哥尔摩召开。Facebook首席人工智能科学家、纽约大学教授 Yann LeCun在开幕式上发表了题目为“Learning World Models: the Next Step towards AI”的演讲。LeCun表示人工智能革命的未来不会是有监督学习,也不会是单纯的强化学习,而是需要学习一个具备常识推理与预测能力的世界模型。LeCun认为自监督学习是实现这一目标的一个潜在研究方向。

关键词:人工智能 机器学习

国际人工智能领域顶级会议IJCAI-2018主会于2018年7月16日上午在瑞典首都斯德哥尔摩召开。Facebook首席人工智能科学家、纽约大学教授 Yann LeCun在开幕式上发表了题目为“Learning World Models: the Next Step towards AI”的演讲。LeCun表示人工智能革命的未来不会是有监督学习,也不会是单纯的强化学习,而是需要学习一个具备常识推理与预测能力的世界模型。LeCun认为自监督学习是实现这一目标的一个潜在研究方向。

现阶段,深度学习的浪潮汹涌澎湃,强化学习的势头不可阻挡,人工智能的发展迎来了前所未有的高潮。在高潮中,我们尤其需要正视存在的问题。

LeCun在报告中介绍说,当前几乎所有实用的机器学习系统都是基于有监督学习建立的。有监督学习通过向机器展示大量有标签的样本,告诉机器正确的答案,并通过反向传播学习模型参数,模型就能够完成图像分类之类的任务。过去几年,有监督学习获得了极大的成功。尤其伴随着深度学习的兴起,卷积神经网络等深度模型被广泛应用于各项任务中,例如医疗诊断、自动驾驶机器翻译信息检索等。然而,LeCun认为目前的深度学习缺乏推理能力,未来的一个重要发展趋势就是深度学习和推理的结合。

LeCun谈到目前有监督学习强化学习面临的问题。有监督学习需要过多的有标签训练样本,而这些标签通常都是人类提供的,需要大量的人工参与。这与婴儿的学习方式大相径庭:婴儿通过大量的观察和少量的与环境交互就能够学习。而强化学习需要大量的尝试以获得足够的反馈。尽管强化学习在游戏中表现良好,却难以被应用到现实世界中,因为现实世界的环境远不像游戏那样可大量快速地重复。比如自动驾驶中,一次失败的尝试可能会导致驾驶员死亡,而且现实世界的环境也无法像游戏那样人为加速。

LeCun总结了这两类学习系统的缺点:缺少独立于任务的背景知识;缺少常识;缺少预测行为后果的能力;缺少长期规划和推理的能力。简言之就是,这两类学习系统没有世界模型,没有关于世界如何运作的通用背景知识。这也是当前深度学习可解释性差、缺乏推理能力的原因。

LeCun认可现有的有监督学习强化学习技术可以使人类在自动驾驶、医疗诊断、机器翻译、客服机器人、信息检索等领域中取得不错的进展,但他认为仅仅依靠现有技术,无法实现常识推理、智能个人助理、智能聊天机器人、家庭机器人以及通用人工智能。在这样的背景下,LeCun提出:人工智能革命的未来不会是有监督学习,也不会是单纯的强化学习,而是需要学习一个具备常识推理与预测能力的世界模型。从直观上理解,世界模型就是一个具备关于世界如何运作的通用背景知识、具备预测行为后果的能力、具有长期规划与推理能力的模型。

图1. 自监督学习方法

那么,如何学习世界模型呢?LeCun认为自监督学习是有望突破有监督学习强化学习现状、学习世界模型的一个潜在研究方向。如图1所示,自监督学习将输入和输出当成一个完整的整体,它通过挖掘输入数据本身提供的弱标注信息,基于输入数据的某些部分预测其它部分。在达到预测目标的过程中,模型可以学习到数据本身的语义特征表示,这些特征表示可以进一步被用于其他任务当中。当前自监督学习的发展主要体现在视频、图像处理领域。例如,在空间层面上包括图像补全、图像语义分割、灰度图像着色等,在时间层面上包括视频帧预测、自动驾驶等。

在学术界,自监督学习近期成为了一个新的研究热点,但它并不是一个全新的概念。Geoffrey Hinton说他的团队早在上世纪70年代就已经开始研究自监督学习。早在2013年,笔者所在的自然语言处理领域就出现了经典的Word2vec词向量表示学习方法。它假设处于相似上下文的词拥有相似的语义,利用自然语言本身的序列信息,通过当前位置的词预测周围的词来学习每个词的特征向量表示。Word2vec词向量学习方法就是一种自监督学习方法。

图2. 三种学习范式对比

强化学习到有监督学习,再到自监督学习,模型接收的反馈信息逐渐增多,模型表征复杂度、适用任务类型逐渐增加,同时任务中涉及的人类手工劳动比重也显著减少,自动化程度大大增加(见图2)。因此,自监督学习可以克服有监督学习中需要大量人工标注数据的问题,也可以解决强化学习中反馈信号稀疏、需要太多次尝试的问题。

图3

那么,自监督学习能够使机器获得常识吗?如图3所示,LeCun认为机器在基于某些部分预测任何其他部分的过程中,将会积累大量关于世界如何运作的背景知识。这种学习并运用世界上普遍规律的能力就是常识推理。这里LeCun 举了一个例子:如果接收到一个自然语言句子“约翰拿起他的公文包,离开了会议室”,具备世界模型的机器应该能够预测出当前场景下的各种背景知识:约翰是一个男人,他可能在工作,他伸展着胳膊、手握着公文包的提手,站立走向会议室的门,他不是飞向门的,他也没有从墙上穿过去。

LeCun进一步认为预测能力就是智能的本质。智能机器人只有具备了预测行为后果的能力,它才能提前作出合理的规划;机器具备了规划的能力,那么它就能模拟世界。建立世界模型就是为了使机器具备常识推理与预测能力,而自监督学习是现阶段机器学习技术中有望实现这一目标的研究方向。

在报告的最后,LeCun总结了科学和技术之间相互驱动、相互促进的历史渊源,比如望远镜和光学、蒸汽机和热力学、计算器和计算机科学以及通讯技术和信息论等。LeCun提出了一系列的开放问题结束了他的演讲:

  • 什么是智能科学的“热力学”?

  • 人工智能和自然智能背后是否存在本质的规律?

  • 学习的背后是否存在简单的法则?

  • 大脑是否为进化产生的大量Hack的集合?

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

入门机器学习Yann LeCunIJCAI-2018
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

推荐文章
暂无评论
暂无评论~