杜伟、一鸣整理

7 papers|EMNLP 2019最佳论文;Facebook语言模型XLM-R取得SOTA结果;最优学习的85%规则

本周的论文既揭幕了 EMNLP 2019 最佳论文,也有 Facebook 在多个跨语言理解基准上取得 SOTA 结果的新模型以及登上 Nature Communications 的最优学习 85% 规则。

目录:
  • Specializing Word Embeddings(for Parsing)by Information Bottleneck

  • Loss Landscape Sightseeing with Multi-Point Optimization

  • Unsupervised Cross-lingual Representation Learning at Scale

  • Understanding the Role of Momentum in Stochastic Gradient Methods

  • The Visual Task Adaptation Benchmark

  • The Eighty Five Percent Rule for optimal learning

  • Confident Learning: Estimating Uncertainty in Dataset Labels

论文 1:Specializing Word Embeddings(for Parsing)by Information Bottleneck

  • 作者:Xiang Lisa Li、Jason Eisner

  • 论文链接:http://cs.jhu.edu/~jason/papers/li+eisner.emnlp19.pdf

摘要:预训练词向量,如 ELMo 和 BERT 包括了丰富的句法和语义信息,使这些模型能够在各种任务上达到 SOTA 表现。在本文中,研究者则提出了一个非常快速的变分信息瓶颈方法,能够用非线性的方式压缩这些嵌入,仅保留能够帮助句法解析器的信息。研究者将每个词嵌入压缩成一个离散标签,或者一个连续向量。在离散的模式下,压缩的离散标签可以组成一种替代标签集。通过实验可以说明,这种标签集能够捕捉大部分传统 POS 标签标注的信息,而且这种标签序列在语法解析的过程中更为精确(在标签质量相似的情况下)。而在连续模式中,研究者通过实验说明,适当地压缩词嵌入可以在 8 种语言中产生更精确的语法解析器。这比简单的降维方法要好。

图 1:研究者利用瓶颈变量 T 来实例化信息瓶颈。

推荐:这篇论文的两位作者都来自约翰·霍普金斯大学,其中一作更是华人学者。在 11 月 7 日于香港落幕的 EMNLP-IJCNLP 2019 大会上,这篇论文荣获了本届大会最佳论文奖。

论文 2:Loss Landscape Sightseeing with Multi-Point Optimization

  • 作者:Ivan Skorokhodov、Mikhail Burtsev

  • 论文链接:https://arxiv.org/abs/1910.03867

  • 项目地址:https://github.com/universome/loss-patterns

摘要:在本文中,研究者提出了一种多点优化(multi-point optimization)方法,这种优化方法不仅可以同时训练多个模型,而且无需单独保留每个模型的参数。此外,这种优化方法用于对神经网络的损失情况进行全面的实证分析。FashionMNIST 和 CIFAR10 数据集上进行的大量实验表明:1)就其所包含的景观模式而言,损失表面呈现出惊人的多样性; 2)添加批归一化使其更加鲁棒。

图 1:典型 CNN 模型在 FashionMNIST(a)和 CIFAR10(b)数据集上的损失表面示例。

图 2: FashionMNIST 数据集上用于 2D 模式拟合的多点优化方法。

推荐:这篇出自莫斯科物理技术学院(Moscow Institute of Physics and Technology)神经网络深度学习实验室的论文向读者介绍了多点优化在模型训练中的诸多优势。

论文 3:Unsupervised Cross-lingual Representation Learning at Scale

  • 作者:Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek 等

  • 论文链接:https://arxiv.org/abs/1911.02116

摘要:本文表明,针对多种跨语言的传输任务,大规模地对多语言语言模型进行预训练可以显著提高性能。在使用超过 2TB 的已过滤 CommonCrawl 数据的基础上,研究者在 100 种语言上训练了基于 Transformer 的掩模语言模型。该模型被称为 XLM-R,在各种跨语言基准测试中,其性能显著优于多语言 BERT(mBERT),其中 XNLI 的平均准确度为+ 13.8%,MLQA 的平均 F1 得分为+ 12.3%,而 FQ 的平均 F1 得分为+ 2.1% NER。XLM-R 在低资源语言上表现特别出色,与以前的 XLM 模型相比,斯瓦希里语(Swahili)的 XNLI 准确性提升了 11.8%,乌尔都语(Urdu)的准确性提升了 9.2%。研究者还对获得这些提升所需的关键因素进行了详细的实证评估,包括(1)积极转移和能力稀释;(2)大规模资源资源的高低性能之间的权衡。最后,他们首次展示了在不牺牲每种语言性能的情况下进行多语言建模的可能性。XLM-Ris 在 GLUE 和 XNLI 基准测试中具有强大的单语言模型,因此非常具有竞争力。

图 1:跨语言分类结果。研究者展示了各种模型在 15 中 XNLI 语言上的准确率以及平均准确率本文提出的 XLM-R 模型均取得了 SOTA 结果。

表 1:各种模型在 CoNLL-2002 和 CoNLL-2003(F1 得分)上的命名实体识别结果。可以看出,本文提出的 XLM-R 模型在 nl 和 es 取得了 SOTA 结果。

推荐:Facebook 这篇论文提出的 XLM-R 模型是基于 Transformer 的掩模语言模型,其在多个跨语言理解基准测试中的结果都显著优于 BERT(mBERT)。

论文 4:Understanding the Role of Momentum in Stochastic Gradient Methods

  • 作者:Igor Gitman、Hunter Lang、Pengchuan Zhang、Lin Xiao

  • 论文链接:https://arxiv.org/abs/1910.13962v1

摘要:随机梯度方法中动量(momentum)的使用已成为机器学习领域的一种广泛实践。动量的不同变体,包括重球动量、Nesterov 加速梯度(Nesterovs』 Accelerated Gradient,NAG)和准双曲线动量(quasi-hyperbolic momentum,QHM),已在各种任务上取得了成功。尽管在实证上取得了成功,但对动量参数如何影响收敛以及各种算法的不同性能衡量指标缺乏清楚的了解。在本文中,研究者利用 QHM 的通用方法对几种流行的算法进行了统一分析,涵盖了这些算法的渐近收敛条件、稳定区域和平稳分布的特性。另外,通过结合收敛速度和平稳分布的结果,研究者有时会获得反直觉的实际准则来设置学习率和动量参数。

推荐:这篇出自微软研究院人工智能中心(Microsoft Research AI)的论文详细探讨了随机梯度中动量参数对收敛以及不同算法中性能衡量指标的影响。

论文 5:The Visual Task Adaptation Benchmark

  • 作者:Xiaohua Zhai、Joan Puigcerver、Alexander Kolesnikov、Pierre Ruyssen 等

  • 论文链接:https://arxiv.org/abs/1910.04867

摘要:深度学习已经给计算机视觉领域带来了诸多改变。其中,达到 SOTA 水平的深度网络能够直接从原始像素中学习有用的表征,从而在众多视觉任务上取得了前所未有的性能。但是,「从零开始」学习这些表征通常需要大量的训练样本。为了解决这方面的问题,谷歌 AI 推出了「视觉任务适应性基准」(Visual Task Adaptation Benchmark,VTAB)。这是一个多样性的、真实的和具有挑战性的表征基准。这一基准基于以下原则:在所需领域内数据有限的情况下,更好的表征应当能够在未见任务上实现更佳的性能。受启发于推动其他机器学习领域进展的一些基准,如用于自然图像分类的 ImageNet、自然语言处理的 GLUE 和强化学习的 Atari,VTAB 遵循相似的准则:(i)对解决方案施加最小约束,以鼓励创造性;(ii)注重实际;(iii)借助挑战性任务进行评估。

VTAB 基准原理图。

推荐:众所周知,图像分类领域有 ImageNet 数据集,自然语言处理领域有 GLUE 基准,这些基准在对应领域的进展中发挥了重要作用。终于,谷歌推出了视觉任务适应性领域的基准 VTAB(Visual Task Adaptation Benchmark),该基准有助于用户更好地理解哪些哪些视觉表征可以泛化到更多其他的新任务上,从而减少所有视觉任务上的数据需求。

论文 6:The Eighty Five Percent Rule for optimal learning

  • 作者:Robert C. Wilson、Amitai Shenhav、Mark Straccia、Jonathan D. Cohen

  • 论文链接:https://www.nature.com/articles/s41467-019-12552-4

  • 项目地址:https://github.com/bobUA/EightyFivePercentRule

摘要:一直以来,研究人员和教育工作者都在思考一个问题:如何最好地教导他们的客户——无论是人类、动物或者机器。在本文中,研究者检验了单一变量,即训练难度,对学习率的影响。在很多情况下,他们发现存在一个「甜蜜点」,其中训练既不是太简单也没有太困难,并且学习进程最快。研究者在二进制分类任务情境下为一系列学习算法的「甜蜜点」推导出了条件。对于所有这些基于随机梯度的学习算法而言,他们发现训练的最优误差率约为 15.87%,反过来说,最优训练准确率约为 85%。研究证明,『85% 规则』对 AI 中使用的人工神经网络和生物上可信的神经网络的效用被认为可以用来描述动物学习。研究证明了「85% 规则」对 AI 中使用的人工神经网络以及生物学上可信且被认为用于描述动物学习的神经网络的有效性。

应用于感知器的「85% 规则」。a 横坐标表示每次训练的误差率(error rate),纵坐标表示训练次数(trial number)。图中的颜色表示训练出的网络的准确率,其中颜色越黄表示准确率越高,颜色越蓝表示准确率越低;b 横坐标表示训练数量,纵坐标表示相对精度(relative precision),三条曲线分别表示 0.36、0.06 和 0.16 的误差率。可以看出,当误差率为 0.16 时,相对精度的增加是最快的。这说明 0.16(约为 15.87%)为训练中的最优误差率。

推荐:这是一篇发表在 Nature Communications 上的论文,详细介绍了最优学习的 85% 规则。

论文 7:Confident Learning: Estimating Uncertainty in Dataset Labels

  • 作者:Curtis G. Northcutt、Lu Jiang、Isaac L. Chuang

  • 论文链接:https://arxiv.org/abs/1911.00068

  • 项目地址:https://pypi.org/project/cleanlab/

摘要:学习存在于数据语境中,而置信概念通常注重模型预测,而不是标签质量。基于修剪噪声数据、计数以估计噪声以及示例排序以进行置信训练的原则,置信学习(Confident Learning,CL)已经成为一种表征、识别和学习数据集中噪声标签的方法。在本文中,研究者基于分类噪声过程的假设对 CL 进行泛化,以直接估计噪声(给定)标签和纯净(未知)标签之间的联合分布。这种泛化的 CL 作为 cleanlab 进行开源,在合理的条件下被证明是一致的,并在 ImageNet 和 CIFAR 数据集上具有实验性能,优于最近的方法,例如当标签噪声非均匀时,性能高出 MentorNet30%或更多。cleanlab 还可以量化本体论类重叠,并可以通过提供纯净数据进行训练来提升模型的准确性(如 ResNet)。

图 1:置信学习(CL)流程以及置信节点 和估计联合分布的示例。

图 2:研究者对具有 40% 标签噪声和 60% 稀疏性的 CIFAR 进行联合分布标签噪声估计。

推荐:这篇出自麻省理工学院和谷歌的论文通过对分类噪声的假设对置信学习(CL)进行泛化,实现了对噪声标签和纯净标签之间联合分布的直接估计。

理论最优学习85%规则最佳论文EMNLP 2019
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

本体论技术

在计算机科学与信息科学领域,理论上,本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。此外,有时人们也会将“本体”称为“本体论”。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

感知器技术

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。

暂无评论
暂无评论~