Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

ELIZA STRICKLAND作者

怼完OpenAI,LeCun回应:我认为意识只是一种错觉

现在的 AI 到底有没有意识?如何定义意识?AI 的前进方向是通过更好的数据标签来改善监督学习,还是大力发展自监督 / 无监督学习?在 IEEE Spectrum 的最近的一次访谈中,图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 表达了自己的看法。

Yann LeCun 在演讲时曾经放过一张法国大革命时期的著名画作《自由引导人民》,并配文:「这场革命将是无监督的(THE REVOLUTION WILL NOT BE SUPERVISED)」。



LeCun 相信,当 AI 系统不再需要监督学习时,下一次 AI 革命就会到来。届时,这些系统将不再依赖于精心标注的数据集。他表示,AI 系统需要在学习时尽可能少得从人类这里获取帮助。

在最近接受 IEEE Spectrum 的访谈时,他谈到了自监督学习如何能够创造具备常识的强大人工智能系统。同时,他也对最近的一些社区言论发表了自己的看法,比如吴恩达对「以数据为中心的 AI」的拥护、 OpenAI 首席科学家 Ilya Sutskever 对于当前 AI 可能具备意识的推测等。


以下是访谈内容:

Q:您曾经说过,监督学习的限制有时会被误以为是深度学习自身的局限性所致,那么哪些限制可以通过自监督学习来克服

A:监督学习非常适用于边界清晰的领域,在这类领域中,你可以收集大量标记数据,而且模型在部署期间看到的输入类型和训练时使用的输入类型差别不大。收集大量不带偏见的标记数据是非常困难的。这里的偏见不一定是指社会偏见,可以理解为系统不该使用的数据之间的相关性。举个例子,当你在训练一个识别牛的系统时,所有的样本都是草地上的牛,那么系统就会将草作为识别牛的上下文线索。如此一来,如果你给它一张沙滩上的牛的照片,它可能就认不出来了。


监督学习(SSL)可以让系统以独立于任务的方式学习输入的良好表示。因为 SSL 训练使用的是未标注的数据,所以我们可以使用非常大的训练集,并让系统学习更加稳健、完整的输入表示。然后,再利用少量的标注数据,它就可以在监督任务上达到良好的性能。这大大减少了纯监督学习所需的标记数据量,并使系统更加稳健、更能够处理与标注训练样本不同的输入。有时,它还会降低系统对数据偏见的敏感性。

在实用 AI 系统这一方向,我们正朝着更大的架构迈进,即用 SSL 在大量未标注数据上进行预训练。这些系统可以用于各种各样的任务,比如用一个神经网络处理数百种语言的翻译,构造多语言语音识别系统等。这些系统可以处理数据难以获取的语言。


Q:其他领军人物表示,AI 的前进方向是通过更好的数据标签来改善监督学习吴恩达最近谈到了以数据为中心的 AI,英伟达的 Rev Lebaredian 谈到了带有所有标签的合成数据。在 AI 的发展路径方面,业界是否存在分歧?

A:我不认为存在思想上的分歧。在 NLP 中,SSL 预训练是非常标准的实践。它在语音识别方面表现出了卓越的性能提升,在视觉方面也变得越来越有用。然而,「经典的」监督学习仍有许多未经探索的应用,因此只要有可能,人们当然应该在监督学习中使用合成数据。即便如此,英伟达也在积极开发 SSL。

早在零几年的时候,Geoff Hinton、Yoshua Bengio 和我就确信,训练更大、更深的神经网络的唯一方法就是通过自监督(或无监督)学习。也是从这时起,吴恩达开始对深度学习感兴趣。他当时的工作也集中在我们现在称之为自监督的方法上。


Q:如何基于自监督学习构建具有常识的人工智能系统?常识能让我们在构造人类智能水平的智能上走多远?

A:我认为,一旦我们弄清楚如何让机器像人类和动物一样学习世界是如何运作的,人工智能必将会取得重大进展。因此人工智能要学会观察世界,并在其中采取行动。人类了解世界是如何运作的,是因为人类已经了解了世界的内部模型,使得我们能够填补缺失的信息,预测将要发生的事情,并预测我们行动的影响。我们的世界模型使我们能够感知、解释、推理、提前规划和行动。

那么问题来了:机器如何学习世界模型?

这可以分解为两个问题:

  • 第一,我们应该使用什么样的学习范式来训练世界模型?

  • 第二,世界模型应该使用什么样的架构?


对于第一个问题,我的答案是自监督学习(SSL)。举个例子,让机器观看视频并暂停视频,然后让机器学习视频中接下来发生事情的表征。在这个过程中,机器可以学习大量关于世界如何运作的背景知识,这可能类似于婴儿和动物在生命最初的几周或几个月内的学习方式。

对于第二个问题,我的答案是一种新型的深度宏架构(macro-architecture),我称之为分层联合嵌入预测架构(H-JEPA)。这里很难详细解释,以上述预测视频为例,JEPA 不是预测视频 clip 的未来帧,而是学习视频 clip 的抽象表征和未来,以便能很容易地基于对前者的理解预测后者。这可以通过使用非对比 SSL 方法的一些最新进展来实现,特别是我们最近提出的一种称为 VICReg 的方法。

Q:几周前,您回复了 OpenAI 首席科学家 Ilya Sutskever 的一条推文。他推测当今的大型神经网络可能存在一些意识,随后您直接否定了这种观点。那么在您看来,构建一个有意识的神经网络需要什么?有意识的系统会是什么样子?

A:首先,意识是一个非常模糊的概念。一些哲学家、神经科学家和认知科学家认为这只是一种错觉(illusion),我非常认同这种观点。

我有一个关于意识错觉的猜想。我的假设是:我们的脑前额叶皮质中有一个世界模型「引擎」。该世界模型可根据实际面对的情况进行配置。例如帆船的舵手用世界模型模拟了船周围的空气和水流;再比如我们要建一张木桌,世界模型就会想象切割木头和组装它们的结果...... 我们的大脑中需要一个模块,我称之为配置器(configurator),它为我们设定目标和子目标,配置我们的世界模型以模拟当下实际的情况,并启动我们的感知系统以提取相关信息并丢弃其余信息。监督配置器的存在可能是让我们产生意识错觉的原因。但有趣的是:我们需要这个配置器,因为我们只有一个世界模型引擎。如果我们的大脑足够大,可以容纳许多世界模型,我们就不需要意识。所以,从这个意义上说,意识是我们大脑存在局限的结果!


Q:在元宇宙中,自监督学习将扮演一个什么样的角色?

A:元宇宙中有很多深度学习的具体应用,例如用于 VR 和 AR 的运动跟踪、捕捉和合成身体运动及面部表情等。

人工智能驱动的新型创新工具提供了广阔的创造空间,让每个人都能在元宇宙和现实世界中创造新事物。但元宇宙也有一个「AI-complete」应用程序:虚拟 AI 助手。我们应该拥有虚拟 AI 助手,他们可以在日常生活中为我们提供帮助,回答我们的任何问题,并帮助我们处理日常的海量信息。为此,人工智能系统需要对世界(包括物理世界和元宇宙的虚拟世界)如何运作有一定的了解,有一定的推理和规划能力,并掌握一定程度的常识。简而言之,我们需要弄清楚如何构建可以像人类一样学习的自主人工智能系统。这需要时间,而 Meta 已为此准备良久。

原文链接:https://spectrum.ieee.org/yann-lecun-ai
理论自监督学习Yann LeCun
1
相关数据
吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

所属机构
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~