Yann LeCun大赞对抗训练,但最喜欢的算法还是反向传播

今天,Facebook 人工智能研究实验室负责人、纽约大学终身教授 Yann LeCun 在 Quora 上回答了一系列关于深度学习、无监督学习的相关技术问题,此外他还就 Facebook 的人工智能研究进行了详细的讲解。机器之心对此问答系列进行了编辑整理,下载了 Yann LeCun 在回答中推荐的学习资源与论文附于文后,读者可点击此处进行下载

深度学习领域近来有太多让人兴奋的进展了,我在这里不可能一一描述。但其中也有一些格外有趣的想法吸引了我的注意,以至于让我本人也参与到了相关的研究项目中。


在我看来,其中最重要的一个是对抗训练(adversarial training,也被称为生成式对抗网络, GAN:Generative Adversarial Networks)。这个想法最先由 Ian Goodfellow 提出,那时他还在蒙特利尔大学就读,老师是 Yoshua Bengio(后来 Ian Goodfellow 加入了 Google Brain,最近又加入了 OpenAI)。


在我看来,这个想法以及其现在正被提出的各种变体是机器学习领域最近十年来最有趣的。


这个想法是同时训练两个神经网络。第一个,被称为鉴别器(Discriminator )——记为 D(Y)——它获取输入(比如图像),然后输出一个表示图像 Y 是否看起来「自然(natural)」的标量。在对抗训练的一个例子中,D(Y) 可被看作是某种形式的能量函数(energy function):当 Y 是真实样本时(如来自某个数据库的图像),该能量函数取低值(如接近 0 的值);而当 Y 不是真实样本时(如噪声或看起来很奇怪的图像),该能量函数取正值。第二个网络被称为生成器(generator)——记为 G(Z),其中 Z 通常是从一个样本分布(如高斯分布)中随机取样出来的向量。生成器的作用是产生图像以训练 D(Y) 函数使其能获取正确的形状(真实图像取低值,其它所有东西的值都更高。在训练过程中,D 会得到一张真实图像,并调整其参数使它的输出值更低。然后 D 会得到一张由 G 生成的图像,然后再调整其参数使输出 D(G(Z)) 更大(在一些目标预定义函数的梯度之后),但 G(Z) 也将训练它自己以欺骗 D 让其以为这些生成的图像是真实的。这种训练是通过获取 D 关于其所生成的每一个样本 Y 的梯度完成的。换句话说,G 会尽力最小化 D 的输出,而 D 则会尽力最大化它。故此得名对抗训练。


原本的构想使用了一种相当复杂的概率框架,但那正是它的要点。


为什么这会如此地有趣呢?它让我们可以将鉴别器作为无监督的「密度评估器」进行训练,即对于数据给出低值,对其它的一切都给出高值的对比函数。要让这个鉴别器合适地解决这个问题,它必需开发出非常好的数据内部表征。然后,比如说,它就可以被用作分类器的特征提取器。


但也许更有趣的是,生成器可被看作是对真实数据的复杂表面进行参数化:给它一个向量 Z,然后它会将其映射成数据流形(data manifold)上的一个点。有一些论文描述了人们使用这种方法做的让人兴奋的事,比如生成卧室的图片、在 Z 向量空间中做人脸上的算术:[戴眼镜的男人]-[不戴眼镜的男人] + [不戴眼镜的女人] = [戴眼镜的女人]。


FAIR(Facebook 人工智能实验室)也有一些关于这一主题的有趣论文:

  1. Denton et al. 《使用对抗网络拉普拉斯金字塔的深度生成图像模型(Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks)》(NIPS2015)

  2. Radford et al. 《使用深度卷积生成式对抗网络的无监督表征学习(Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks)》(ICLR2015)

  3. Mathieu et al. 《超过均方误差的深度多规模视频预测(Deep multi-scale video prediction beyond mean square error)》

其中最后一篇是使用对抗训练进行视频预测。它解决了一个真正重要的问题,即当你训练一个神经网络(或任何其它模型)预测未来时,而且当存在多种可能的未来时,使用传统方法(如最小二乘法)训练的网络会预测所有可能的平均。在这个视频案例中,这只会产生一团模糊的混乱。而对抗训练可让系统产生其想要的任何东西,只要它处在鉴别器喜欢的集合内。这可以解决不确定预测时的「模糊」问题。


这看起来似乎是一个技术问题,但我真的认为这开启了通往整个概率世界的新大门。

网上有无数关于机器学习的材料、教学演讲和课程,包括 Coursera 教程。


我的回答更确切地说是针对深度学习的。通过参加网上教学讲座,你可以获得一些关于深度学习的广泛而深刻的见解。最值得关注的学习材料有:

  1. 一篇由我、Yoshua Bengio 和 Geoff Hinton 写的发表在《自然》上的综述论文,其引用量很高。

  2. 由 Goodfellow、Bengio 和 Courville 所著书籍《深度学习》。

  3. 我最近在巴黎的法兰西学院做了 8 课关于深度学习的讲座。这些讲座用的是法语,后来译制成了英语:https://www.college-de-france.fr/site/en-yann-lecun/index.htm

  4. Geoff Hinton 在 Coursera 上开设的神经网络课程(内容有点过时了)。

  5. 2012 年 IPAM 暑期学校的关于深度学习的视频讲座: http://www.ipam.ucla.edu/programs/summer-schools/graduate-summer-school-deep-learning-feature-learning/?tab=schedule

  6. 2015 年我在纽约大学开设的深度学习课程: http://cilvr.nyu.edu/doku.php?id=deeplearning2015:schedule (很不幸,由于愚蠢的法律原因,课程视频被迫下架,但是幻灯片(slides)还在)。我将在 2017 年再次教这门课。

  7. 2015 年的深度学习暑期学校:http://videolectures.net/deeplearning2015_montreal/

围绕如何使用特定软件平台的各种课程,比如 Torch, TensorFlow 或 Theano 等平台。

这些领域是现在从业者正致力研究并有希望取得进展的领域:

  • 结合推理与规划的深度学习

  • 基于模型的深度增强学习(包含非监督预测学习)

  • 微分记忆模块(differentiable memory modules)强化的循环神经网络(例如记忆网络:

  • 记忆网络 (FAIR):MEMORY NETWORKS

  • 堆栈增强循环神经网络 (FAIR):Inferring Algorithmic Patterns with Stack-Augmented Recurrent Nets

  • 神经图灵机(DeepMind): Neural Turing Machines

  • 端到端以及神经网络(FAIR/NYU):End-To-End Memory Networks

  • 以及随之涌现的激动人心的论文。

  • 经过对抗训练的生成/预测模型

  • 「微分编程」:这种观点是将一种程序(或电路)视作一个可以利用 BP 算法训练的微分模块图形。该想法指向不只学习辨识模式(例如前馈神经网络),还要生成算法(通过 loops、递归、子程序等等)的可能性。DeepMind、FAIR 以及其他研究单位已经发布了一些相关论文,但是该领域仍然处于初始阶段。

  • 层级规划和层级增强学习:这个问题是学习将复杂任务分解成简单的子任务。看起来像是智能系统的要求。

  • 以一种无监督的方式学习预测世界上的模型。

假如未来数年间这些领域可以取得重大进展,我们或许将目睹具有相当智能程度的人工智能被用于对话系统、问答系统、自适应机器人控制和规划等领域。


巨大的挑战在于制造无监督的/预测性的学习方法,这将让大规模的神经网络通过观看视频、阅读课本等方式「学习世界如何运转」,而不依靠任何人为注释的数据集。


这些过程也许耗时五年、十年、二十年甚至更长。我们无法预料。

深度学习的「传统」形式包括前馈模块(一般而言是卷积网络)和循环网络(有时带有记忆单元,比如 LSTM 或记忆神经网络)的各种组合。


这些模型的局限在于「推理」能力,也就是进行一连串的推论,或者得出答案的最优化程序。计算中的步骤量受限于前馈网络有多少层,也受限于循环网络的记忆能保存多长时间。


为了让深度学习系统能够推理,我们需要作出修改,让它们不是产生单一输出(比如一张图片的解释,一个句子的翻译等),而是产生一整套可供选择的输出(例如一个句子的多种翻译方式)。这就是基于能量的模型要做的事:为每种可能的推断变量配置进行评分。基于能量的模型的一个特殊的例子是因子图(非概率的图模型)。将学习系统与因子图结合,这在机器学习中就是著名的「结构化预测」。在 20 世纪 90 年代早期,许多人提议结合神经网络和结构化预测。事实上,我和同事在 90 年代初构建的检查阅读系统( check reading system )在卷积网络(我们称之为「图片变压器网络( Graph Transformer Networks )」)上使用了某种形式的结构化预测。最近我们也做了许多工作,将图模型粘黏到卷积网络上,并端对端地训练所有事情(例如,评估人体姿势或这类的事情)。


想了解基于能量的模型和神经网络(或其它模型)之上的结构化预测,请阅读此论文:A Tutorial on Energy-Based Learning。


深度学习当然受限于其当前的形式,因为其所有成功的应用都使用了监督式学习和人类注解的数据。我们需要找到从「原始的」未注解的数据中训练神经网络的方法,让它们找到现实世界的规律。正如我在之前的答案中说到,我的钱用在了对抗训练上。

既有目标的差异,也有组织模式和工作模式的不同。


首先,我会说一下目标。大体上,我们有一个长期的目标:理解智能,建立智能机器。这不仅仅是一个技术上的挑战,也是一个科学问题。智能是什么,我们如何将其在机器上复现?和「宇宙由什么组成」、「生命意味着什么」一样,「智能是什么」或许是长期困扰我们的基础科学问题中的一个。最终,这将不仅帮助我们制造智能机器,也将理解人类思维和大脑的工作模式。


也就是说,在建立真正的智能机器的过程中,我们将探索全新的理论,全新的法则,全新的方法以及全新的算法,它们将在短期和中期得到应用。其中很多技术很快地在 Facebook 的产品和服务中得到应用,比如图像理解,自然语言理解,内容过滤/排名等技术。

当马克·扎克伯格邀请我到 Facebook 工作时,他和他的首席技术官 Mike Schroepfer(我上司)在构建 FAIR 上给了我很多自由,以我觉得最优的方式构建。


我之前已经在其他公司的研究院工作过很久(贝尔实验室, AT&T 实验室, NEC研究所,甚至作为实习于 80 年代在施乐帕克实验室工作过)我有很多朋友分别在在微软研究院,IBM研究院,谷歌,DeepMind 以及其他公司工作(有些已经倒闭)。所以我逐渐明白企业研究院模式中可行和不可行的方式。我也逐渐明白研究所成功或失败的原因和方式。这些经历帮助我设计了 FAIR 的工作架构和工作模式。


首先,只有那些奢侈到拥有长期规划的公司才负担得起具有雄心壮志的高级研究实验室。这意味着那些真正拥有实验室的公司都是非常庞大而且在各自市场非常稳定的公司(他们不需要考虑如何存活下去)。从历史来看,IBM、AT&T、施乐、通用电器、微软是这样的公司,现在谷歌和 Facebook 也加入了这个行列。


其次,研究院需要建立开放的工作环境,研究者们必须获得公开发表自己作品的授权。这是至关重要的:秘密从事的研究几乎总是比公开发表的研究质量要低。(例如开源软件要比闭源软件有着更好的质量。顺便一提,我们发布了 FAIR 很多研究的源代码。)经过同行们阅览筛选公开发表的研究成果总是更加值得信赖也更坚实。同时,研究者的生命和生涯往往是和他或她的智力影响紧密相连的。只有鼓励他们发表作品,你才能吸引到最好的研究学者。归根结底,发表作品对公司的名声总是大有裨益的。


许多工程师和科学家想为作为科学和技术领域的领导者和创新者的公司效力。开放研究的哲学理念让我们能轻易地与高校和公众/非盈利的研究室合作。大公司会垄断好的想法。许多好的想法来自学术机构(事实上是它们当中的大多数),但是一些想法需要 Facebook 等公司提供基础设施和工程上的支持,从而实现全部潜在的价值。


第三,科学发现是「自下而上的」过程。我们招聘研究员部分是因为他们有敏感的嗅觉,会挑选出值得从事的优质项目和值得探索的研究课题。在起步阶段,大量研究员处于探索中:你提出某个想法,并尝试去做。你需要有随机应变的工具,它们能让你快速地落实你的想法并调查这些想法是如何起作用的。当你的想法开始发挥作用,你就可以组成一小队科学家和工程师,你们一起致力于践行那些想法,使之解决现实问题。如果发展顺利,这些想法就会变成工程项目。在这个过程的每个阶段,团队变得更大,而且工程师(与科学家相比)所占比例也在增长。在 FAIR ,我们与一个叫做应用机器学习( Applied Machine Learning ,简称 AML)的团队密切合作。 AML 比 FAIR 更加是工程师导向的,尽管 AML 有相当多的关于机器学习/人工智能、计算摄影、虚拟/增强现实等非常酷的研究项目。FAIR 70% 是研究员, 30% 是工程师,而 AML 恰好相反。我在贝尔实验室体验过作为研究室的一员与工程师团队密切合作是什么感受,但是这种合作模式是非常有益的。这里有一篇非常好的文章描述了 FAIR 和 AML 的关系:(深度 | Facebook人工智能腾飞的双翼:研究和应用两大实验室的融合与开放

显然,当前形式的深度学习是相当有局限性的。但是当人们想出如何建造人类水平的人工智能时,像深度学习这样的技术必将成为解决方案的一部分。


对深度学习的洞见是:

(1)学习是人工智能必不可少的组成部分:在 20 世纪 80 和 90 年代,这未被广泛认同。但是,我总是坚信这点,而且越来越多的人如今也对此深信不移。

(2) 深度学习就本质而言是这样一种观点,即人工智能系统应该学习关于世界的抽象的/高水平的/层级结构的表征。这是人工智能解决方案的一部分,而不管系统通过哪种方法学习这些表征。

(3)一个问题是,是否能围绕机器学习的核心范式(即将目标函数最小化)构建人类水平的人工智能,以及这种最小化是否能通过基于梯度的方法(比如随机梯度下降法)完成。如果答案是否,我们就需要找到新的范式,为表征学习建立未来的算法。


除此之外,还有一个哲学以及理论问题:不管你扔给机器多少资源,哪些任务是机器可以学会的,哪些是不可能的。关于这样的问题,学习理论领域已经有相当多的工作。许多有趣的研究结论都指向「没有免费午餐定律」,这表明特定的学习机器只能中规中矩地学会诸多可能任务中的少数任务。没有哪个学习机器能有效地学会所有可能的任务。人工智能机器要「有偏见地」学习某些任务。而我们人脑不是一般意义上的学习机器,这似乎令我们羞愧,但这是事实。我们人脑极其特化,尽管它明显地适应性。


任何计算设备都有内在的难题。这就是为什么即使我们想构造具有超级智能的机器,它们的能力也是有限的,不会方方面面超过身处社会现实中的我们。它们可能在象棋和围棋上打败我们,但是如果抛一枚硬币,它们就会像我们那样糟糕地预测硬币是正面还是反面。

目前,这是学界非常活跃的主题。我很高兴看到高等数学家和理论物理学家对深度学习背后的理论感兴趣。


一种理论上的困惑是,在训练深度神经网络时需要完成的非凸优化为什么看上去能可靠地运行。单纯的直觉告诉我们,优化非凸函数很困难,因为我们会陷入局部最小值,还会被 plateaus 以及鞍点难住而减慢速度。plateaus 和鞍点可能存在问题,然而局部最小值似乎从来不会造成问题。我们的直觉错了,因为以低维度画出了能级相图。但是,深度神经网络的目标函数经常有 1 亿个或更多维度。很难以 1 亿个维度构建一个盒子。这需要大量壁面。我所呆过的纽约大学实验室(查找第一作者 Anna Choromanska)和 Yoshua Bengio 的实验室在这方面做了许多工作。他们使用了来自随机矩阵理论和统计力学的数据工具。


另一个有趣的理论问题是多层网络为什么起作用。所有有限位数的布尔函数能用两层网络(使用函数的析取范式的连接)执行。但是绝大多数布尔函数在公式中需要最小项的指数(也就是说,在两层神经网络中的隐藏单元的指数)。作为计算机程序设计人员,我们都知道如果我们同意运行多个顺序排列的步骤去计算函数(多层计算),许多函数会变得简单。对于运用多层网络,这是一个引人注目的论点。尚不清楚的是如何在类似神经网络这样的结构体系的背景下形成更加正式的论点。


第三个有趣的问题是卷积神经网络为什么运行得如此好。 Mark Tyger 等人写了一篇非常酷的文章,讲解了类似卷积神经网络的结构体系为什么是分析特定信号类型的恰当工具(我是这篇论文的作者之一,但是所有的荣誉必须归于 Mark ,他是 FAIR 的研究科学家。)论文:A Mathematical Motivation for Complex-valued Convolutional Networks


这项工作建立在 Stéphane Mallat 和他的博士学生 Joan Bruna 之前「散射变换(scattering transform)」的工作基础上。散射变换是类似卷积神经网络的结构体系,有固定频率滤波器,你可以在这个网站上正式了解其数学特性:Google Scholar Citations ( Joan 以前是我在纽约大学的实验室的博士后,后来进入 FAIR ,再后来加入伯克利的统计部门,成为助理教授。)论文:Invariant Scattering Convolution Networks


我认为深度学习领域的理论学家会面临许多有趣的问题,比如围绕分布式随机优化的问题。

因为最聪明的人工智能研究者不为华尔街工作;-)

我不会选择出最好的,但我看好 ICLR 2016 的进展:http://www.iclr.cc/doku.php?id=iclr2016%3Amain#accepted_papers_conference_track

我将让我的优秀出众的 FAIR 同事 Ross Girshick 和 Larry Zitmick 来回答这个问题,「多亏了研究团队开发的深度学习技术的巧妙应用,我们在图像分类方面的工作比几年前做得更好了。深度学习或多或少破解了视觉感知的大多数基本形式:当物体来自受约束的物体范畴内时,将图片中的主要物体分类。然而,尽管这已成功做到了,但是当约束条件很松散时,或者当任务从图像分类转变为检测和分割物体时,深度学习仍然远达不到人类视觉感知的水平。这些更具挑战的任务需要更多的研究。此外还有正在探索中的令人兴奋的研究领域,包括非监督式学习,识别物体的长尾,细分整个画面和识别视频。」


我将做以下补充:在一些领域取得了惊人的进展,比如伴有物体检测和定位的弱监督式图像识别。我感到震惊的是我的 FAIR 同事在「深度面具( DeepMask )」方面的工作,这是一种弱监督式的基于卷积网络的方法,输出的不仅是物体所属的类别,还有物体的面具(不仅是一个边界框,而是整个面具)。去年,这项技术被并入 FAIR,参与 COCO 竞赛。参看以下两篇论文:

  • 目标检测的一个多通道网络(A MultiPath Network for Object Detection)

  • 学习提炼目标分割(Learning to Refine Object Segments)

在视觉方面还有很多尚未解决的问题,尤其是视觉推理、开放式视觉问答、图片说明生成、视频理解等。


一个特别重要的问题是图象语义分割:给图片中每个像素标上它所属物体的类别。这对于自动驾驶汽车等应用领域是分厂重要的。我的学生和我为移动机器人视觉和街道场景分析等专题做了一些工作:

  • 越野路上的移动机器人视觉 (JFR 2009):Learning Long-Range Vision for  autonomous off-road driving
  • 街道场景标记 (PAMI 2013): Learning Hierarchical Features for Scene Labeling

在这一专题上最近有许多有趣的工作,尤其是来自剑桥大学 Roberto Cipolla 团队的「 SegNet 」结构。见:http://mi.eng.cam.ac.uk/projects/segnet/


基于卷积网络的图象语义分割被 MobiEye 和 NVIDIA 等公司用于自动驾驶汽车的视觉系统中。


我一直在思考的一个问题是,一个人是否能构建一种「通用的视觉系统」去解决通常被各个击破的视觉问题:针对静态图片和动态视频的监测、分区、位置识别、高水平解读、动作识别等。


显然,将所有问题结合在一起并系统地解决在某种意义上需要使用非监督式学习。

对抗学习是有史以来最酷的事。在前面的答案里我已经列出了一些相关的论文。预计在未来几年里这一技术还将有更多了不起的成果。目前还缺少对它的很好的理解,有了好的理解我们才能让它可靠地工作。这是很棘手的。就有点像上世纪 90 年代的卷积神经网络,那时候人们认为我是唯一一个能使其工作的人(这不是真的)。

好吧,我是有偏见的 ;-)


但我可以说几件事:

苹果并不是人工智能研究领域的参与者,因为他们有非常保密的文化。你根本无法秘密地进行前沿的研究。如果你不能发表,那就不是研究。最多只能算是技术发展。


微软正在做一些很好的工作,但他们流失了大量的人,他们去了 Facebook 和谷歌 。他们在语音的深度学习上有很多不错的成果(以及在 2000 年代初,当前的热潮的早期时,在手写识别上也有很好的成果)。但他们当前的研究工作看起来并没有 FAIR 或 DeepMind 的研究那样有雄心。


谷歌(通过 Google Brain 和其他研究团队)很可能在产品和服务中的深度学习部署上处于领先,因为他们开始得比任何人都早,而且他们也是一家非常大的公司。他们也已经在基础设施方面做出了非常大量的背后工作(比如 TensorFlow、张量处理单元(TPU)硬件……)。但其研究的大部分都关注于应用的产品开发,而不是长期的人工智能研究。已经有一些顶级的研究者离开了 Google Brain,加入了 DeepMind、OpenAI 或 FAIR。


DeepMind 在基于学习的人工智能上做出了非常出色的研究。他们的长期研究目标或多或少与我们在 FAIR 的目标类似,而且我们正在研究的很多主题都是相似的:无监督/生成式模型、规划、强化学习、游戏、记忆增强网络、可微编程(Differentiable Programming)等等。他们面临着与 Alphabet(谷歌)内部最大的客户在地理和组织上隔离的难题。这使他们更难以为自己的主人家带来收入从而「为自己的研究买单」。但看起来他们做得不错。


Facebook 在两年半之前成立了 FAIR,并成功在非常短的时间内成为了人工智能研究领域的领先者之一。我很惊讶我们竟然能吸引到如此之多的世界级研究者(FAIR 目前在纽约、门洛帕克、巴黎和西雅图有大约 60 名研究者和工程师)。过去两年半,我们得出的研究成果的质量和影响也都让人惊叹。我们对我们的目标雄心勃勃,我们在这里进行立足长远的研究,而且我们对这家公司也有影响,这可以容易地证明我们的存在。最重要的是,我们非常开放:我们所有的研究者每年都会发多篇论文。要知道这样的事情也屡见不鲜:很有前途的年轻研究者加入一家没那么开放的企业或创业公司,然后就从研究界消失了。

你钦佩哪位教授的研究,就找他/她做你的硕士或者博士导师。

尽可能学习所有连续的数学和物理课程。如果必须在「iOS编程(iOS programming)」和 「量子力学」之间做选择,选择量子力学。任何情况下,都要学习Calc I, Calc II, Calc III, 线性代数, 概率和统计,以及尽可能多地学习物理。但是要确定你要学编程。


(1)选择那种能让你满怀激情的相关人工智能问题进行研究

(2)独立思考

(3)一旦有了自己的看法,就开始阅读这方面的文献。

(4)你会发现(a)自己的看法好天真但是(b)和之前的研究差别不大。

(5)找到学校中可以帮你厘清思路的教授。可能不太容易找到。教授总是很忙,也没多少时间为大学生答惑解疑。最有时间的老师要么非常年轻,要么非常年长,要么就是研究很不积极。

(6)如果找不到有空闲时间的教授,就「勾搭」这些教授试验室里的博士后或者博士。

(7)问问教授是否可以参加他(她)实验室的会议和讨论会,或者听他(她)的课。

(8)毕业前,试着写篇研究论文,发布一份开源代码。

(9)申请博士学位。现在,请忘记学校「排名」。找一位受尊敬的教授,他从事的研究正好是你感兴趣的。挑选你喜欢或者倾佩的论文作者当你的导师。

(10)如果找到了上述这些教授,就申请其所在的学校的博士,在申请信中,可以说你想和这位教授一起合作,并对与其他教授合作持开放态度

(11)请你的大学教授写推荐信。如果你心仪的博士导师也认识这位教授,这封推荐信的作用就会很大了。

(12)如果你没有被心仪的博士项目录取,就去 Facebook 或者 Google 求职,或者去诸如 FAIR 或者 Google Brain 找一份工程师的临时工作,充当这些机构研究科学家的助手。

(13)和上述研究科学家共同发表论文,然后再去申请博士项目,可以请和你一起工作的 FAIR 或 Google 科学家为你写封推荐信。

当前,人工智能和深度学习的确过热。炒作很坏事,因为它会提高人们的预期,当预期得不到满足时,就会引发失望。这就是过去会有「人工智能冬天」的部分原因。


所以,如果你看到某些过分的炒作,就要就事论事。无论何时,只要我能做到,我都会这么做。创业公司想要吸引投资或者用户,因此,总有很大的动力去炒作。很多吸引到大量投资的人工智能创业公司不过就是些空洞的炒作机器。


即便如此,深度学习还是可以产生真实效益的,也是今天可以真正赚钱的行业的基础。在不久的将来,这些领域的应用前景非常激动人心(即使没有炒作),比如自动驾驶、医学成像、定制化医疗、内容过滤/排名等等。

个人认为想要突破人工智能,不可能不通过机器学习。

机器学习就在其所出的位置上,表征学习(或者说深度学习)就在行动之处。

理解智能并打造真正智能的机器。

我们正在努力研究让学习机器对它们的环境建模、记忆、推理和规划。

为此,我们使用视频游戏(我们已经将 Unreal 3D 游戏引擎连接到了深度学习环境 Torch 上)和各种真实和虚拟的环境。

我们也在研究人工智能在图像和视频理解、文本理解、对话系统、语言翻译、语音识别、文本生成和其它更深奥的领域的应用。

我认为人工智能不会对人类的存在构成威胁。


我并不是说这不可能,但如果我们让它发生了,那我们就真是非常蠢了。


其他人声称我们必须要非常聪明才能防止这样的事发生,但我认为并非如此。


如果我们聪明到能造出具备超过人类智能的机器了,我们大概也不会蠢到会给予它们足以毁灭人类的无限力量。


此外,这完全是一个谬论,因为我们也是通过其他人类接触的智能的。智能机器完全没有任何理由想要统治世界和/或威胁人类。统治别人的愿望是非常人类的想法(而且也只对某些人有吸引力)。


即使是人类,智力也并不与对权力/力量的渴望存在关联。事实上,目前发生的许多事情告诉我们,只有那些智力有限的人才会对权力有过度的渴望(而且有些还成功了)。


作为一家业界研究实验室的管理者,我是很多远比我聪明的人的 boss(我将雇佣比我聪明的人看作是我工作的一个主要目标)。


人类对彼此做很多糟糕的事情,这是人类特有的。当我们感受到威胁,心生嫉妒,想要独占资源,更喜欢我们的近亲而不是陌生人时会变得暴力。这些行为都是我们的种族延续而进化到我们体内的。智能机器不会具备这些基本的行为,除非我们有意将这些行为赋予它们。但我们为什么要这么做?


另外,如果真的有人故意构建一个危险的通用型人工智能,其他人也将有能力构建另一个范围更狭窄的人工智能,它的唯一目标就是摧毁前面那个人工智能。如果这两个人工智能都有权获取同样数量的计算资源,第二个智能就会获胜,就像一只老虎、一头鲨鱼或一个病毒杀死一个智力更高的人类一样。

反向传播(Backprop)。

FAIR 有六种类型的职位:

  • 研究科学家:你需要一个博士学位,几年的研究经验(比如,作为博士后)和很好的论文发表记录。这个要求是相当高。

  • 研究工程师:你需要一个硕士学位,还需要你在之前的研究或工作中接触过机器学习/人工智能。这个职位大部分是相对初级的,但也有少数高级的。FAIR 有 25%-30% 的人是研究工程师。

  • 博士后:这是一个一年或两年的限期研究岗位,一般直接在你拿到博士学位后开始。

  • 博士学生:在我们的巴黎实验室,我们会吸纳少量处在所谓的 CIFRE 状态的博士学生。这是法国的一个特别项目,让博士学生可以将大部分时间投入到业界的某个实验室中,让该公司的某个研究者以及大学的一位教授作为他的共同导师。

  • 实习生:我们接受暑期实习生,有时候也接受学年期间的实习生。他们中几乎大部分都处在博士阶段。在欧洲大陆,人们接受「本科+2 年硕士+3 年博士」的教育,我们会接受一些他们的硕士或博士阶段的实习生,

这里可以查看 FAIR 的成员以及他们的背景信息:https://research.facebook.com/researchers/ai/

嗯,那取决于你对意识(consciousness)的定义。


但对于任何合理的意识的定义,我的答案都是「Yes」。


我认为这只是学习能力达到足够智能程度的结果,这不只是对世界的好模型,而且是对包含你在内的世界的好模型。


对我们来说,意识可能就像是我们心智的一种真正神秘的性质,但我认为这只是一种强大的错觉。


人们围绕意识而对自己提出的许多问题让我想起了 17 世纪人们常常问自己的问题:我们的视网膜上的图像是颠倒的,为什么我们看到的却是正立的世界呢?现在看来,这个问题天真得让人发笑。

我不相信奇点这个概念。


我确实相信本世纪内,我们有机会拥用高于人类水平的通用智能机器。


但是,我不相信这会是一个「大事件(event)」,也不相信这会迅速引发先进技术疯狂增长。


知识和技术进步中有很多摩擦项会减缓进步。克服某种技术的物理局限性也需要时间。限制技术进步速度的因素包括这样一种事实:一项新技术出现之前,其所赖以存在的促成性技术必须已经存在,并且经过调试,能负担的起,也能被广泛使用。比如,没有碳化纤技术、 线控计算机、代码验证、CAD 、LCD 彩显、光学纤维等,就没有现代大型客机...仅仅测试有关机器损耗和寿命等机械设计,就要花费很长时间,无论你有多聪明。只有当其赖以存在的所有其他技术已经广泛普及开来,某项新技术才会出现。新技术发生的速度并不仅仅取决于发明速度,也取决于人们的购买速度,因此也取决于你可以让这些技术变得有多么便宜。这些都是经济问题。


不错,我们会拥有超人智能的机器。事实上,我们已经有了,但是它们具有特定性:比如只能做算术、数字化地解决微分方程(比如,预测天气情况或者设计飞机的航空动力)、下象棋和围棋,等等。通用人工智能系统最终会是人类智能的增强版,这可能也是人类大脑新皮质增强爬虫类大脑智能的方式,但是,很大程度上仍处在人类智能掌控之中。

简单回答没有。但是这是两个不相容的事情。


我不认为深度学习一定需要更好的理论理解。


只要一个方法有效,就不应该仅仅因为理论学家还不知道怎么解释就放弃或者反驳这个方法。机器学习领域在上世纪九十年代中期犯了这个错误,神经网络遭到了大面积的反驳(有时甚至是嘲笑)。这个原因比较复杂,但是这显然是集体犯错,该领域至少倒退了十年。


严格的方法研究可以让你去完全理论地分析,但同时你也把自己局限在使用幼稚的方法中。


物理学家不这样工作。他们不会选择他们研究的系统的复杂性,因为物理世界就是物理的样子。对他们来说,复杂的系统更有趣。举个例子,很多有趣的数学和理论物理方法都是在研究自旋玻璃(spin glasse)和其他「无序」系统的情境中发展出来的。物理学家不会简单地因为这些系统太复杂了就选择不去研究这些系统。在我们工程为导向的领域中,我们研究的系统是我们自己创造的人工系统,我们可能会被诱惑着去简化这些人工的系统以更便于分析。但是如果我们以一种它们不再有效的方式在处理中过于简化这些系统,就好像泼洗澡水时顺带把孩子也泼了出去。


使用简单的机器学习模型只是因为你能在理论上理解它们,这就好像刻舟求剑。


我有信心,集合了数学、理论物理和机器学习理论领域中非常聪明的人后,对深度学习的理解会有突破性的进展。


鉴于这段时间在深度学习上消耗的大量智力和电能、鉴于它在社会转型中的作用,比如自动驾驶汽车,做这件事会有很大的动力。

不会。我们雇佣拥有博士学位的研究科学家,几乎都是一些拥有几年博士后或者其他研究岗位经历的人。

但我们确实会雇佣没有博士学位的研究工程师(尽管一些工程师也有博士学位)。

请参见 FAIR 和马克斯·普朗克研究所(MPI)的新近研究: Discovering Causal Signals in Images  

对机器学习工程师的需求,无处不在。每个公司都想雇佣深度学习工程师。研究人员的话,只有少数大型优秀且拥有实验室的公司才会有需求,比如,Facebook、谷歌、IBM、微软、Adobe 和少数其他几个公司。

入门Yann LeCun理论观点对抗性训练反向传播