Haren Hao作者车前子、杨学俊校对黄继彦编辑陈之炎 翻译

人工智能先锋人物杰夫·辛顿说:“深度学习将无所不能”

三十年前,辛顿对神经网络的观点与众不同,他说现在大家都接受了这些观点。

  • 人工智能领域的缺口:“必须有更多的概念上的突破,在规模上,还需要加大。"
  • 神经网络的弱点:“神经网络在处理多参数少量数据时,表现不错,但是这方面,人类似乎做得更好。"
  • 人脑如何工作:“大脑内部是参与神经活动的大向量。"

现代人工智能革命始于一场默默无闻的研究竞赛:2012年,即第三届图像网络竞赛(ImageNetcompetition),挑战团队需要建立一个能识别1000个物体的计算机视觉系统,这1000个物体中包括动物、景观和人类。

在前两年,即便是最好的参赛团队,准确率都不超过 75%。但是到了第三年,三位研究人员(一位教授和他的两个学生)突然打破了这个天花板,他们惊人地超出了10.8个百分点,赢得了比赛。那个教授便是杰弗里·辛顿,他们使用的技术叫做深度学习

自20世纪80年代以来,辛顿一直致力于深度学习的研究工作,由于缺乏数据和计算能力,其有效性受到了限制,一直到2012年才取得成果。辛顿对这项技术的坚定信念最终带来了巨大的回报:在第四年的图像网比赛(ImageNet competition)中,几乎所有参赛队都在使用深度学习,并获得了神奇的准确性。很快,深度学习便被应用于图像识别之外的任务。

去年,由于他在这一领域的特殊贡献,辛顿与人工智能的先驱们YannLeCun和Yoshua Bengio一起被授予图灵奖。10月20日,我在麻省理工学院技术评论的年会“Em Tech MIT会议”上与他谈到了这个领域的现状,以及下一步的方向。

为了表达清楚,对以下内容进行了编辑和浓缩。

你认为深度学习足以复制人类所有的智力,为什么这么确定?

我深信深度学习将无所不能,同时,我认为必须有相当多的概念上的突破。例如,2017年AshishVaswani等人,引入“transformer”“transformers”这个概念,它利用向量来表示词义,这是一个概念性的突破,目前几乎用于所有的自然语言处理模型。我们需要更多类似的突破。

如果有了这些突破,是否能够通过深度学习来模拟所有人类智力?

的确如此,特别是如何获得神经活动的大向量来实现“推理”这样的突破。但同时我们需要大幅度增加规模。人脑大约有100万亿个参数,即突触,是真正的巨大模型,像GPT-3(https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/),有1750亿个参数,但它比大脑小一千倍。GPT-3现在可以生成看似合理的文本,但与大脑相比,它依然太小。

提到规模时,是指更大的神经网络,更多的数据,还是两者兼而有之?

两者兼而有之,计算机科学中发生的事情和人们实际发生的事情之间存在某种差异。与获得的数据量相比,人们拥有更多的参数神经网络擅长处理有大量参数的少量数据,但人类在这方面却做得更好。

很多业内人士认为,下一个大的挑战是常识,你同意吗?

我同意,这是一件非常重要的事情,我认为运动控制也非常重要,而深层神经网络现在正变得越来越擅长这一点。特别是,谷歌最近的一些工作表明,可以完成精细的运动控制并与语言相结合,比如:打开一个抽屉,取出一个小木块,系统便可以用自然语言告诉你它在做什么。

像GPT-3这样的模型,它可以生成精彩的文本,很明显,它必须深入理解才能生成该文本,虽然我们对于它理解的程度还不太清楚。但是,如果有什么东西打开抽屉,拿出一个小木块并说:“我刚刚打开一个抽屉,拿出小木块一个”,也可以说它明白自己在做什么。

人工智能领域一直把人脑作为其最大的灵感来源,不同的人工智能方法源于认知科学中的不同理论。你是否相信大脑实际上建立起了外部世界的表征之后,再来理解它,或者这只是一种有用的思考方式?

很久以前,在认知科学中,两个学派之间存在着一场争论:其中一个是由斯蒂芬·科斯林(Stephen Kosslyn)领导的,他认为,当大脑处理视觉图像时,你拥有的是一组正在移动的像素;另一学派则更符合传统的人工智能,“不,不,这是胡说八道,它是分层、结构性的描述。脑内处理的是一个符号结构。”

我认为他们都犯了同样的错误。科斯林认为我们处理的是像素,因为外部图像是由像素组成的,这是能为我们理解的一种表示;有人认为大脑处理的是符号,是因为我们也在用符号表示事物,这也是我们能理解的一种表示。我认为二者都不对,实际上大脑内部是多个神经活动的大向量。

仍然有许多人认为符号表示是人工智能的方法之一。

当然。我有像赫克托·莱维斯克(Hector Levesque)这样的好朋友,他们相信符号表示的方法,并在这方面做了很棒的工作。我不同意他的观点,但符号表示方法是一件完全合理的事情。我猜测,符号只是存在于外部世界中,在大脑内部,用大向量进行内部操作。

你认为你对人工智能未来最与众不同的观点是什么?

好吧,我早先持有的与众不同的观点,五年后,它们却成为了主流。早在20世纪80年代,我的大多数反向观点现在都被广泛接受了,现在大多数人都同意并接受了这些观点。所以,在某种程度上可以说,我的逆向观点已被削弱了。

原文标题:

AI pioneer Geoff Hinton: “Deep learning is going to beable to do everything”

原文链接:

https://www.technologyreview.com/2020/11/03/1011616/ai-godfather-geoffrey-hinton-deep-learning-will-do-everything/

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

理论杰夫·辛顿神经网络
相关数据
杰弗里·辛顿人物

杰弗里·埃弗里斯特·辛顿 FRS(英语:Geoffrey Everest Hinton)(1947年12月6日-)是一位英国出生的加拿大计算机学家和心理学家,以其在类神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~