Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

自然语言处理顶级会议EMNLP2016最佳论文出炉

自然语言顶级会议EMNLP2016(Conference on Empirical Methods in Natural Language Processing,自然语言处理实证方法大会)即将在美国召开,最佳论文,荣誉最佳论文,最佳短篇论文及最佳资源论文现已公开,机器之心编译并与大家分享。论文下载请点击文末网盘链接。

最佳论文:

  1. Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning

image.png

摘要:大部分成功的信息提取系统运行时都接入一个大型的文件集。在这个研究中,我们探索了获取并结合外部证据的任务,以在训练数据量稀缺的领域中提高提取的精确度,这个过程需要重复发布搜索查询,从新的来源中提取以及使提取值一致,直到收集到足够的证据。我们使用强化学习框架来解决这个问题,在此框架中,我们的模型可以学习基于上下文来选择最优行动。我们应用了一个深度 Q-network,训练它来优化能反应提取精度同时还能惩罚多余工作的奖励函数。我们的试验用到了两个数据库——枪击事件数据和食品掺假情况数据——证明了我们的系统明显优于传统的提取器和一个元分类基准。

2.Global Neural CCG Parsing with Optimality Guarantees

image (1).png

摘要:我们介绍了第一种全局递归神经解析模型,它是实时解码的最佳保证。为了支持全局特性,我们放弃了动态程序,用直接在所有可能子树中搜索的方式代替。尽管这样会导致句长指数性地增长,我们展示了达到学习效率 A 解析器的可能性。我们增大了已知解析模型,它存在外界评分的信息界限,通过一个宽松界限并只需非局性现象建模的全局模型。全局模型因此在新的目标下进行训练,这可以鼓励解析器更精确有效地进行搜索。这种方式适用于 CCG 解析,通过 0.4F1 获得了可观的精确性提升。解析器可为 99.9% 的停止句(held-out sentence)找到最佳解析,仅需搜索平均 190 个子树。

最佳论文荣誉提名

1.Span-Based Constituency Parsing with a Structure-Label System and Provably Optimal Dynamic Oracles

image (2).png

摘要:由于神经网络的出现,使用有效的转换系统的解析精确度已得到巨大提升。尽管依存关系语法分析的结果惊人,神经模型还没有超过 constituency 分析中的最佳方法。为了弥补这个缺陷,我们引进了一个新的位移减少系统,该系统的堆栈只包含了句子跨度,通过最低限度的长短期记忆网络特征来表征。我们还为 constituency 分析方法设计出首个可查验的最优的 dynamic oracle,相比于进行依存分析的 O(n3)oracles,它在 amortized O(1)time 内运行。在此 Oracle 上训练,我们在英语和法语中任何不适用 reranking 和外部数据的解析器上,都取得了最好的 F1 得分。

2.Sequence-to-Sequence Learning as Beam-Search Optimization

image (3).png

摘要:Sequence-to-Sequence(seq2seq)建模已经成为了一种重要的多用途自然语言处理工具,它已被证明在很多文本生成和排序任务中被证明有效。Seq2seq 建立在深度神经语言建模之上,并在局部的下一个词分布的估计中延续了其良好的精确度。在本研究中,我们介绍了一种模型和训练方式,基于 Daum'e III 和 Marcu(2005)的成果,同时扩展了 seq2seq 方式,使它可以学习全局序列分数。这种结构方式在证明了已有 seq2seq 模型架构能够进行有效训练的情况下,避免了传统方式上局部训练(local training)的常见偏差,同时通过测试使用时间使训练损失一致。我们发现与高度优化的基于注意的 seq2seq 系统以及其他系统相比,在三种不同的 sequence to sequence 任务中(词序,解析和机器翻译),我们的系统存在明显优势。

最佳短篇论文:

Learning a Lexicon and Translation Model from Phoneme Lattices

image (4).png

摘要:语言文件始于对语音的收集。在词上的手动或自动转录几乎不可能实现,因为缺乏正字法(orthography)或先前词汇,而且尽管手动音素转录是可能的,却相当的慢。此外,将小语种转译为主要语言更容易掌握。我们提出一种方法能掌握这样的翻译技能,从而改进自动音素识别。该方法假设没有先前词汇或翻译模型,而是从音素网格和被转录的语音翻译中进行学习。实验表明在两个基线上对音素错误率有了极大改进,也改进了该模型学习有用双语词汇入构项的能力。

最佳资源论文:

SQuAD: 100,000+ Questions for Machine Comprehension of Text

image (5).png

摘要:我们展现了斯坦福问答数据集(SQuAD),这是一个新的包含 10 万条问题的阅读理解数据集,由众包工作人员在一系列 Wikipedia 文章上提出,面向每个问题的答案是相应阅读文章的分割文本。我们分析了该数据集来理解回答这些问题所需的推理类型,及其依赖 dependency 和 constituency 树。我们建立了一个逻辑回归模型,取得了 51% 的 F1 得分,这是对基线成果(20%)的极大改进。然而,人类水平却更高(86.8%),表明该数据集展示了未来研究的一大挑战。数据集免费开放地址:https://stanford-qa.com/。



论文下载网盘:http://pan.baidu.com/s/1jIqG1P8

理论理论NLPEMNLP 2016获奖论文
暂无评论
暂无评论~