Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

路雪 张倩报道

NAACL 2019最佳论文揭晓,谷歌BERT获最佳长论文

NAACL 是自然语言处理领域的盛会,NAACL 2019 将于 6 月 2 日-7 日在美国明尼阿波利斯市举行。据官方统计,NAACL 2019 共收到 1955 篇论文,接收论文 424 篇,录取率仅为 22.6%。其中长论文投稿 1198 篇,短论文 757 篇。 刚刚,大会放出了本届会议的最佳论文,谷歌 BERT 论文获得最佳长论文奖项。

以下是机器之心对获奖论文的摘要介绍,其中最佳可解释 NLP 论文还未公开。

最佳专题论文(Best Thematic Paper)

  • What's in a Name? Reducing Bias in Bios Without Access to Protected Attributes

  • 作者:Alexey Romanov, Maria De-Arteaga, Hanna Wallach, Jennifer Chayes, Christian Borgs, Alexandra Chouldechova, Sahin Geyik, Krishnaram Kenthapadi, Anna Rumshisky and Adam Kalai(CMU、微软研究院、领英)

  • 论文链接:https://128.84.21.199/abs/1904.05233

摘要:越来越多的研究提出了减少机器学习系统中偏见的方法。这些方法通常依赖于对受保护属性(如人种、性别或年龄)的获取。然而,这引发了两大问题:1)受保护的属性可能无法获取或不能合法使用;2)通常需要同时考虑多个受保护属性及其交集。为了减少职业分类中的偏见,本文作者提出了一种可以抑制某人真实职业预测概率与其姓名词嵌入之间关系的方法。

该方法利用了编码在词嵌入中的社会偏见,消除了对受保护属性的需要。重要的是,该方法仅在训练时需要获取人名,部署时并不需要。作者使用一个大型的在线传记数据集评估了该方法的两种变体,发现二者都能同时减少种族和性别偏见,而且几乎不降低分类器的真正率(true positive rate)。

最佳可解释 NLP 论文

  • CNM: An Interpretable Complex-valued Network for Matching

  • 作者:Qiuchi Li, Benyou Wang and Massimo Melucci

  • 论文链接:https://arxiv.org/abs/1904.05298 

最佳长论文

  • BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

  • 作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee and Kristina Toutanova(谷歌 AI)

  • 论文链接:https://arxiv.org/pdf/1810.04805.pdf

摘要:本文介绍了一种新的语言表征模型 BERT,意为来自 Transformer 的双向编码器表征(Bidirectional Encoder Representations from Transformers)。与最近的语言表征模型(Peters et al., 2018; Radford et al., 2018)不同,BERT 旨在基于所有层的左、右语境来预训练深度双向表征。因此,预训练的 BERT 表征可以仅用一个额外的输出层进行微调,进而为很多任务(如问答和语言推断任务)创建当前最优模型,无需对任务特定架构做出大量修改。

BERT 的概念很简单,但实验效果很强大。它刷新了 11 个 NLP 任务的当前最优结果,包括将 GLUE 基准提升至 80.4%(7.6% 的绝对改进)、将 MultiNLI 的准确率提高到 86.7%(5.6% 的绝对改进),以及将 SQuAD v1.1 的问答测试 F1 得分提高至 93.2 分(提高 1.5 分)——比人类表现还高出 2 分。

BERTOpenAI GPT 和 ELMo 的预训练模型架构对比。

参考文章:

最佳短论文

  • Probing the Need for Visual Context in Multimodal Machine Translation

  • 作者:Ozan Caglayan, Pranava Madhyastha, Lucia Specia and Loïc Barrault(勒芒大学、帝国理工学院)

  • 论文链接:https://arxiv.org/abs/1903.08678

摘要:当前关于多模态机器翻译(MMT)的研究表明,视觉模态要么是非必需的,要么作用有限。本文作者假设这是因为该任务唯一可用数据集 Multi30K 使用的句子太简单、简短和重复,这些语句将源文本渲染为充分的语境。然而,通常情况下,我们认为可以将视觉和文本信息结合起来,以实现基础翻译(ground translation)。

本文通过系统的分析来探讨视觉模态对当前最佳 MMT 模型的贡献,分析时作者部分地删除了源文本语境,使模型无法接收到完整的文本。结果表明,在有限的文本语境下,模型能够利用视觉输入生成更好的翻译结果。当前的研究认为视觉模态对 MMT 模型来说并不重要,要么是因为图像特征的质量,要么是因为将它们整合进模型的方式,但本研究颠覆了这一看法。

最佳资源论文

  • CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge

  • 作者:Alon Talmor, Jonathan Herzig, Nicholas Lourie and Jonathan Berant(以色列特拉维夫大学、艾伦人工智能研究所)

  • 论文链接:https://arxiv.org/abs/1811.00937

摘要:人们通常利用丰富的世界知识和特定语境来回答问题。近期研究主要聚焦于基于关联文档或语境来回答问题,对基础知识几乎没有要求。为了研究使用先验知识的问答,我们提出了一个关于常识问答的新型数据集 CommonsenseQA。为了捕捉关联之外的常识,我们从 ConceptNet (Speer et al., 2017) 中抽取了多个目标概念,它们与某个源概念具备同样的语义关系。

我们让众包工人编写提及源概念的选择题,并区分每个目标概念之间的差别。这鼓励众包工人编写具备复杂语义的问题,而问答这类问题通常需要先验知识。我们通过该步骤创建了 12,247 个问题,并用大量强基线模型做实验,证明该新型数据集是有难度的。我们的最优基线基于 BERT-large (Devlin et al., 2018),获得了 56% 的准确率,低于人类准确率(89%)。

构建 CommonsenseQA 数据集的过程示例。

表 5:所有模型的测试集准确率

NAACL 论文接收列表:https://naacl2019.org/program/accepted/

理论NAACL 2019BERT机器学习
2
相关数据
基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

ELMo技术

ELMO 是“Embedding from Language Models”的简称, ELMO 本身是个根据当前上下文对 Word Embedding 动态调整的思路。ELMO 采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的 Word Embedding 作为新特征补充到下游任务中。

OpenAI GPT技术

GPT 是“Generative Pre-Training”的简称,从名字看其含义是指的生成式的预训练。GPT 也采用两阶段过程,第一个阶段是利用语言模型进行预训练,第二阶段通过 Fine-tuning 的模式解决下游任务。它与ELMO 主要不同在于两点:特征抽取器不是用的 RNN,而是用的 Transformer;GPT 的预训练虽然仍然是以语言模型作为目标任务,但是采用的是单向的语言模型。

推荐文章
暂无评论
暂无评论~