Matthew Hutson作者魔王报道

Science:AI领域那么多引人注目的「进展」,竟是无用功

近日,一篇 Science 社论文章梳理了近年来 AI 各子领域的进展,发现看似红红火火的领域实际上毫无进展。在人工智能技术风起云涌的今天,这篇文章的观点或许值得我们思考。

人工智能看似越来越聪明:芯片越来越快,数据越来越多,算法性能也比之前更好。但是一些改进来自于微调,而不是其创造者所说的核心创新,甚至有些改进根本不存在,MIT 计算科学与人工智能实验室博士 Davis Blalock 如是说。

Blalock 及其同事对比了数十种神经网络改进方法,发现「看完五十篇论文,愈发不明白当前最优性能是什么样了」。

他们一共评估了 81 种剪枝算法,即通过修剪不必要的连接提高神经网络效率的方法。所有这些算法都声称自己具备更优秀的表现,但是它们甚至很少得到恰当的对比。这项研究将它们进行对比评估后,发现在过去十年中没有明确证据可以表明算法性能出现提升。

相关研究《What is the State of Neural Network Pruning?》令 Blalock 的导师、MIT 计算机科学家 John Guttag 感到震惊,他表示,不公平的对比或许可以解释这一停滞现象。「老话说得好,如果你无法衡量一件事,就很难让它变得更好。」

近年来,研究人员发现多个 AI 子领域的进展实则「摇摇欲坠」。

2019 年,一项针对搜索引擎所用信息检索算法的元分析发现,「高水位线早在 2009 年就已确立」。

2019 年的另一项研究在 18 种推荐算法中仅成功复现了 7 种,而且其中 6 个在性能上无法超越多年前开发的更简单的非神经算法。

而在今年三月的一篇 arXiv 论文《A Metric Learning Reality Check》中,康奈尔大学计算机科学家 Kevin Musgrave 对损失函数进行了评估。他以公平的方式在图像检索任务中对十几种损失函数进行对比,发现与损失函数发明者所声称的相反,自 2006 年以来模型准确率并未因此得到提升。Musgrave 表示:「总是会有这样的炒作。」

CMU 计算机科学家 Zico Kolter 表示,机器学习算法的性能提升来自于架构、损失函数或优化策略的基础改变,而对它们进行微调也能带来性能提升。Kolter 致力于研究免受「对抗攻击」影响的图像识别模型。早期的对抗训练方法叫做投影梯度下降(PGD),即在真实和欺骗性样本上训练模型,该方法后来似乎被一些更复杂的方法超越。

但在今年 2 月的一篇 arXiv 论文《Overfitting in adversarially robust deep learning》中,Kolter 及其同事发现,在使用简单的 trick 对这些方法进行增强后,所有方法的性能几乎相同。

「这个结果令人吃惊,我们之前从未发现过这一点。」Kolter 的博士生 Leslie Rice 表示。Kolter 称该研究表明 PGD 这类创新很难实现,也很难出现实质性的改进。「很显然,PGD 就是正确的算法,这是显而易见的,但人们想要找到更复杂的解决方案。」

另外一些重要的算法改进似乎经受住了时间的考验。1997 年长短期记忆(LSTM)的诞生带来了极大突破。在经过恰当训练后,LSTM 与其诞生二十年后看似更先进的架构性能相当。

另一个机器学习突破出现在 2014 年,它就是生成对抗网络(GAN)。2018 年的一篇论文《Are GANs Created Equal? A Large-Scale Study》称,只要有充足的计算量,原版 GAN 方法的能力可与近年来的新方法媲美。

Kolter 表示,研究人员更愿意开发新算法并进行微调,使之超越原有的 SOTA 结果。原有的方法看起来没那么新颖,因此「更难据此写出论文」。

Guttag 认为,即使算法的发明者也很难全面地对比自己的工作与其他方法,因为万一其突破并不像他们以为的那样呢。「太认真地对比会有风险」,而且实现难度颇大:AI 研究者使用不同的数据集、调试方法、性能度量指标和基线。「要做到一一对应的比较很不现实。」

一些夸大的性能表述可能要归因于该领域的爆炸式发展,论文数量比有经验的评审还要多。「其中大量论文读起来是种煎熬,」Blalock 说道。他敦促审稿人使用更多的对比方法来进行评判,并表示更好的工具或许能起到一定的帮助。今年初,Blalock 的共同作者、MIT 研究人员 Jose Gonzalez Ortiz 推出了一款名为 ShrinkBench 的软件,可以更便捷地比较剪枝算法。

研究人员指出,即使新方法本质上不如旧方法好,但它们实现的调整说不定也可以用到之前的方法上。偶尔也会出现真正突破性的新算法。「这很像是一个风险投资组合,」Blalock 说道。「即使一些投资不赚钱,但总有能够获得回报的。」

原文链接:https://science.sciencemag.org/content/368/6494/927

理论AIAI研究进展Science
相关数据
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。 大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法,以便可以对注释词执行检索。 手动图像注释耗时,费力且昂贵; 为了解决这个问题,人们已经对自动图像标注进行了大量研究。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

合合信息机构
推荐文章
暂无评论
暂无评论~