近日,著名学者 Yoav Goldberg 发布的一篇批评蒙特利尔大学新论文《Adversarial Generation of Natural Language》乃至整个 arXiv 社区的不良风气的文章引起了人工智能界的轩然大波,许多研究者和从业者也纷纷长文短文地发表了自己的看法,参阅机器之心的相关报道《从 Yoav Goldberg 与 Yann LeCun 争论,看当今的深度学习、NLP 与 arXiv 风气》和《观点 | Yoav Goldberg 撰文再回应 Yann LeCun:「深度学习这群人」不了解 NLP(附各方评论)》。但这场争论或许持续的时间太长了!今天早些时候,自称「三年未写过博客」的谷歌 VP、 Engineering Fellow、自然语言理解与机器学习负责人 Fernando Pereira 在其博客上发声,用喜剧性的叙述风格对人工智能和计算语言学的发展进行了描述并阐述了自己的看法和观点。机器之心对本文进行了编译介绍,但文中观点并不代表机器之心的立场。
序言
我有 3 年不写博文了。有很多似是而非的借口,但最大的原因是相比于写博文需要全神贯注,动动手指发条推特却很容易。但是由 Yoav Goldberg 的 Medium 博文引发的这场关于深度学习、自然语言、 arXiv 风气的争论让我回想起了有一天(不是今天)我要做的事:计算语言学(language as a computational process)复杂且有时模糊,但又持续不断的科学与工程学历程(我清楚,非常清楚,甚至是本文的这种谨慎说法也会触犯不少社会科学家和哲学家,但这只是一篇博文,不是论文)。
我将这段历史称为一出闹剧并没有不敬之意,而是由于其中的误解和起伏,宛如一场真正的喜剧、歌剧或者无声电影。在激烈的学术争论中,那些不清楚历史之人将第一个拿起水球。毕竟,这些争论源自 1950 年代和 1960 年代早期学术巨人的严肃工作,比如 Kleene、Shannon、Harris、McCulloch、McCarthy、Minsky、Chomsky、Miller 等。希望有一天我可以看到有关人工智能起源的富有思想、精心编排的历史,以及更希望看到的语言学的计算(机)转向。但是这一转向一直没有人写,那我就抛砖引玉献上我的喜剧版的吧。
第一幕:(弱)理性时代
直到 1980 年代,很多语言计算模型和语言处理的工作依然是寄托于一个清晰或隐晦的希望:相对简单的算法将捕获大部分重要的东西。研究者(包括我)创建模型和算法宣称可以模块化的组合方式捕获「关键」现象。一旦取得成功,实际应用将轻易到来,因为组合性的良好组合会涵盖到人类表达意义的无限多的方式。
这很棒,但是存在一个所有模型或系统均无法解析的尴尬问题,更不用说很好地翻译绝大多数日常语言了。回到当时,人工神经网络的支持者甚至说那些脆弱的语言形式模型失败了,因为在其节点上它们并没有足够的「弹性」。这导致了一些史诗般的食物大战,但现实是 NN 模型、算法和我们当时使用的绝大多数微计算机和数据集甚至不能匹配那些手工精心打造的规则系统。
解决模型和实际语言不匹配的一个(临时的)不得已的办法是我们成了形式语言学家(我也是),并声称我们正在使用计算工具调研语言的核心,置实际语言的自然性混合而不顾,直到几十年后我们找到了打开宝藏的钥匙。对于符号和神经网络研究者来说,这是一次很好的绕道,它有一个并非完全不理性的方法论式防卫,在其中,比如说,物理学家当然也调研了简化的系统,这回避掉了令人不舒服的感觉:语言作为一种进化的生物和社会现象也许并不存在简单描述。顺提一句,语言学的这种情况有点和生物学与生物医学在发现基因代码(以及后来的人类基因组测序)之后如何研究「简单性」相似,在进化遗留的令人胆怯的混乱面前停住了脚步。不管怎样,我依然认为一些当时开发的语言描述模型在从未被超越的细节层面确实捕捉到了语言中特定实际组合式可能性的范围。这主要是另一个时间的故事,除却简化的设置和模型的诱惑再次出现在第三幕中。
这一领域在当时非常小,人们之间彼此相识,甚至包括那些互相轻视彼此工作并在 ACL 提问环节破口而出的人。结果,一些研究品味很好的仲裁者设置了每个子社区的基调。当时通过研究流通的有限手段,产生了小而有力的派系。当这样的派系控制了研究资源时,事实上确实如此,替代性想法就没有生存空间了。
第二幕:经验主义的入侵
自然语言的计算研究 70 年代末到 80 年代末的经费资助并不多,再结合研究经费的变动(这一部分本身就很有趣,但这里不适合展开),经验主义者说服了经费提供者,令他们相信传统的理性学派全都在研究上犯了错误。
经验主义者的继承人包括香农、图灵、Kullback、I.J. Good 等人,他们在 IDA 和随后的贝尔实验室与 IBM 将语音识别和翻译问题视为密码分析问题上做出了巨大的贡献。而这一段时间从 Bletchley Park 到 HMM 再到 IBM Model 2 仍然处于黑暗中,模型并没有完全建立,但这一发现过程无疑是十分有趣的。他们这一群经验主义者说服了资助者,特别是 DARPA,令他们相信理性学派是空洞的,而只有统计度量才能推动计算语言工作在实践和真实情况中取得成功,这就正如现在在语音识别领域内发生的一样(如今语音识别的进步不如以前那么令人印象深刻)。那时的经验主义者其背景、职业等通常都更接近于 DoD 而不是理论性的计算语言学家(这里有一系列故事可以展开)。不论如何,那一段时间经验主义入侵者越来越多地与资助者结盟,并设定了新的研究规则。这就像诺曼人入侵英格兰,通过新的贵族,一种全新的词汇很快在统治阶级流行开来。
事后看来,1987-89 年的运动以及由此产生的新秩序是非常有趣的(即使这一领域当时还没有受到入侵),并带来了新的方法,客观上带来了更有效,可衡量进步水平的方法,如果你的研究急需资金的话。对我来说,我已经开始了自己从有些怀疑的理性主义到有些怀疑的经验主义过渡的旅程,并在接下来的 12 年里脱离了政府资助研究的世界。所以,冲突是建立对旧文化和新文化之间更远视野的一个绝佳方式。
经验主义的优势在运用计算资源和文本数据时展示无遗,它也随着网络爆炸带来的新资源和有资助研究、软件开发和语料库的建立而不断兴起。对指标的信仰帮助资助者将研究结果更好地展示出来,并产生(如果不像有些时候想要的那样广泛的)切实利益,特别是在语音识别和机器翻译方面。因此,在这一时期,研究社区的发展很快(乐观估计的话,在 20 世纪 90 年代到 21 世纪初,扩张了大约五倍)。
经验主义与今天的冲突有关的一个奇怪的副产品就是:衡量对比本身成为了一种美德,有时甚至完全独立于测量之外。许多经验主义的信徒只想要数字,而忽视了他们的研究是否符合与实际语言结构和使用有关的任何内容。尽管 Penn Treebank 指标经常被拿来反对这一指责,但我会忽略这个罪名,在此不再赘述。
总而言之,一种统计度量方法在这一段时期出现并至今流行,例如在会议审查,那些有趣的模型或观察是不受人关注的,除非他们提升了这种统计度量方法。而统计度量方法成为了出版的守门员,它们不需要思考而可以很简单地应用,这推动了一种 p-hacking 文化,该文化抑制了模型的解释和误差分析。对于一个从业者来说,更糟的是所有统计度量都是平均值,如果你负责一个误差率需要非常低的产品,那么较大的偏差就很有问题了。这使我们进入到最后一幕。
第三幕:被入侵的入侵者
其实经验主义者(Empiricist)的做法是有很明显的缺陷的,但是却很少被大家讨论。开始的时候,他们能通过非常有限的资源,比如内容和词汇进行工作。毕竟,它不像生活中的交通那样,需要受交通管制,天气等等因素的制约。当你得到足够的象征性的数据以后,你就可以知道你想知道的任何事。这就是 Harris 极力强调的技术语言和通用语言的差别。经验主义时代的通俗性任务,从 ATIS 到 PTB, 也被限制了(例如旅行,商业新闻等)。这意味着典型的基于统计的经验主义方法在他们自己的基准下比在现实中做得更好。用 PTB 语法分析程序去分析一下网络(比如社交媒体或聊天工具)就知道了。
大量的训练数据可以很自然地被收集——特别值得注意的是,并行翻译语料库集——当经验主义方法拥有足够数据的时候进展是很缓慢的。尽管当数据量很小的时候这种方法是无把握的,就像他们经常做的那样。
另一方面,经验主义方法常常通过选择一个比较实用的预估方法来防止失败。那些把这些方法应用到真实数据中的人很清楚怎样和「小数据」进行抗争,让人失望的是那些受喜爱的数据方法(比如潜在变量模型)在大多数情况下是没有显著效果的,因为在实际情况当中,一个基于数据的普通模型(或者线性模型)可以像「手握」数据时的效果一样好。那些经常思考这个问题的人开始意识到象征性数据和它的变量不能通过「类似」标记的方法被有效地归一化。我们尝试了很多方法来解决这个问题(比如基于分类的语言模型),但是他们全是无效的,或者在计算上行不通。
现在,深度学习者拿着他们的 GPU 来对经验主义者和他们那些受人崇敬的方法进行挑战,首先是语言建模,然后是机器翻译,由于它们学习应用和归一化的能力比普通的统计方法强很多,因此收获不小。神经网络的模块化可以使它很容易地去拓展其模型设计的空间。循环门控模型——Recurrent gated models(来自 Hochreiter 和 Schmidhuber)比过去二十年的传统统计方法更加灵活,更加兼容。这无疑是个颠覆。
这一发展是不可遏制的。包括科研人员在内,实验项目,和论文都以很快的的速度在推进,据我估计从 2010 年到 2017 年间已经翻了四倍。现在,发表的地点「遍地开花」,科研人员用更多的能源去燃烧自己的 GPU, 将更多的精力转向 arXiv, 以在「新大陆」上建立自己的功勋。
但是这种「入侵」是值得称道的吗?只有很少的标准化任务拥有大量的训练数据集去进行语言建模或翻译,而这也是大规模 SGD 所依赖的。一些被小心翼翼地建立起来的训练数据集,比如语法分析,也有一些效果,但是不像深度学习那样成果显著。现在在迁移学习(transfer learning)中, 比如 zero shot 翻译,也产生了令人兴奋的成果,但是它们需要在整个大数据集中对模型进行训练。然而在另一方面,当我们仅仅有一些预估数据时,基于计数(count-based)的模型仍然可以做一些不错的工作(聚类,生成模型),但是深度学习方法还不能得出更好的答案。
对于连续性输出来说,GAN 已经取得了很多成果。至少在图像效果方面很好。但是当我应用分布式聚类(distributional clustering)的时候发现,从观看者的角度来看,效果也是非常的好。词语关联任务(word association tasks)在预估词语嵌入的应用中是很通用的,和被预估模型的规模大小相比几乎是没有差别的。用 GAN 进行文本预测的好方法非常稀有。在对手的抵制下,经验论者「经历了惨烈的战争,仅有少数得以幸存,获得新生」。一旦著名经验论者的堡垒被攻陷,这场战役还怎么打?
思想!让我们回到我们可以轻松创建测试条件的玩具问题,就像理性主义者当时做的那样(即使我们没意识到我们在模仿他们)。毕竟,Atari 并不是真实生活,但却仍然可以表现强化学习的惊人进展。让我们一起破解自然语言领域的 Atari 吧!
但现在,理性主义变成了经验主义(人们甚至对此抱有很大的热情)。这不公平,Atari 不是真实生活!
当然不是。PTB 也不是,任何标准的经验主义任务都不是。这还想模拟不羁的语言(因为经费就靠它!)。但就只能失败——就像 Harris 在 1950 年代末预测的那样。而最好的描述性语言学也不会成功,它将来自描述性模型的良好组合的混乱偏移丢进了黑暗之中。
结语
莫扎特的《魔笛(The Magic Flute)》中的神秘主义让我恶心想吐,说实话这场戏已经拖得太长了(至少对那些坐在不舒适的音乐厅座位上的人来说是这样)。但这个音乐和最后的信息是明确的!主角们在挣扎,但最终会沿着他们不同的道路获得启迪。我们离 Dann ist die Erd' ein Himmelreich, und Sterbliche den Göttern gleich 还很远(多谢神经机器翻译给我的引用做了检查),但我们已经在我们的道路上奋斗了足够长时间了,我们能够认识到接下来的需求以及推动我们前进的更好方式。