近日,百度在自然语言处理领域的各个国际顶级会议上发布了数十项研究成果,展现了百度在 NLP 技术的发展及应用上的持续不断地前沿探索与贡献。本文将带你概览百度 PaddleNLP-研究版各大开源项目。
为了更好服务 NLP 研究者,百度 PaddleNLP 于近日完成了针对其研究能力的升级,即 PaddleNLP-研究版。
PaddleNLP-研究版旨在基于飞桨(PaddlePaddle)深度学习平台和百度 NLP 深厚的技术积累,为广大研究者提供 NLP 领域前沿方向的研究成果、代码与数据,让广大研究者们可以快速复现已发表学术论文的实验效果,并据此开展新的研究。
目前,PaddleNLP 已经开放了包括 ACL2019、NAACL2019、IJCAI2019、MRQA2019 等顶级 NLP 会议 5 篇最新论文,支持了 3 个竞赛的代码复现,配合开放了 2 个相关论文的数据集,包括 DuConv、MMPMS、MPM、ARNOR 等模型和数据,覆盖信息抽取、智能对话、问答、阅读理解、评论建议挖掘等领域。
未来,PaddleNLP 还将持续升级,开源更多百度大脑在 NLP 领域的研究成果,例如发表于 ACL2019 的 KTNET、SEEDS、STACL 等模型与框架,覆盖了机器阅读理解、个性化对话、同声传译、机器翻译等场景。
PaddleNLP 作为一个同时覆盖工业应用和学术研究的全方位工具与数据集,将持续依托飞桨和百度 NLP 强大的技术保障,让开发者以越来越低的门槛获取更多前沿的 NLP 技术,欢迎持续关注。
百度 PaddleNLP-研究版开源与即将开源项目概览
ACL2019-ARNOR: Attention Regularization based Noise Reduction for Distant Supervision Relation Classification
摘要:远监督通过知识库自动获取标注语料,是关系抽取的关键算法。但是远监督通常会引入大量噪声数据,即句子并未表达自动标注的关系。进一步说,基于远监督学习的模型效果不佳、解释性差,无法解释关系的指示词。为此,我们提出基于注意力正则化的 ARNOR 框架(Attention Regularization based NOise Reduction)。此方法通过注意力机制,要求模型能够关注关系的指示词,进而识别噪声数据,并通过 bootstrap 方法逐步选择出高质量的标注数据,改善模型效果。此方法在关系分类及降噪上均显著优于此前最好的增强学习算法。
应用价值:在文本信息抽取有广泛的应用价值。此方法能够显著降低对标注数据的依赖,实现低成本的基于知识库的自动关系学习,未来可落地在医疗、金融等行业信息抽取中。
GitHub 地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2019-ARNOR
ACL2019-DuConv:Proactive Human-Machine Conversation with Explicit Conversation Goals
摘要:目前的人机对话还处于初级水平,机器大多是被动对话,无法像人类一样进行充分交互。我们提出了基于知识图谱的主动对话任务,让机器像人类一样主动和用户进行对话。对话过程中,机器根据知识图谱主动引领对话进程完成提前设定的话题(实体)转移目标,并保持对话的自然和流畅性。为此,我们在电影和娱乐任务领域人工标注 3 万组共 27 万个句子的主动对话语料,并实现了生成和检索的两个主动对话基线模型。
应用价值:可应用于智能音箱中的对话技能,也可以基于此开发闲聊技能,让机器主动发起基于知识图谱的聊天。
GitHub 地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/ACL2019-DuConv
IJCAI2019-MMPMS:Generating Multiple Diverse Responses with Multi-Mapping and Posterior Mapping Selection
摘要:在人类对话中,对于一个对话上文,往往存在多个合适的回复(One-to-Many)。已有的对话模型主要通过引入多个隐式机制来建模对话的一对多关系,从而选择不同的隐式机制生成不同的回复。虽然这些模型在多回复生成上已经表现出不错的效果和潜力,但由于训练阶段缺乏目标回复与隐式机制的准确对应,隐式机制的效果仍受限于不准确的优化过程。
在这项工作中,我们一方面提出多映射机制(Multi-Mapping)来建模对话一对多关系,通过不同的映射模块作为隐式机制来实现对话上文和不同回复之间的语义映射。另一方面,为了解决已有模型中隐式机制优化不准确的问题,我们提出后验映射选择机制(Posterior Mapping Selection),在训练阶段通过利用目标回复的语义信息(后验信息)更准确地选择目标回复所对应的映射模块进行优化,从而提高不同映射模块的优化效果。同时,我们也引入一个基于语义匹配的辅助优化目标(Matching Loss)以促进后验映射选择的优化。实验结果表明所提出的模型能够生成更多有信息量并且多样的回复。
应用价值:此模型能够实现多样合适的多回复生成,在对话系统中具有广泛的应用价值。
GitHub 地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/IJCAI2019-MMPMS
MRQA2019-BASELINE:A PaddlePaddle Baseline for 2019 MRQA Shared Task
摘要:问答阅读理解是指让机器阅读给定的文本并回答相关的问题。该任务是自然语言处理中的一项重要课题。最近,一些机器阅读理解系统在一些阅读理解的相关数据集上取得了较好的结果,但是这些结果主要是在领域内测试集上进行评估得到的,并不能体现模型的泛化能力。为此,2019 MRQA 问答阅读理评测关注于测试现有系统在领域外数据集上的泛化能力。
我们基于飞桨(PaddlePaddle)深度学习框架,为 MRQA 任务提供了一个基线系统。该基线具有以下优点:
预训练语言模型:ERNIE (Enhanced Representation through kNowledge IntEgration) 是百度提出知识增强的语义表示模型。我们的 ERNIE 基线比 MRQA 官方的 BERT 基线在域外验证集上的结果高出 6.1 个百分点(marco-f1)。
多卡微调和预测:该基线支持使用多 GPU 进行微调和预测,方便研究人员和开发者加快实验效率。
一键复现:提供了一个简单易用的系统,方便研发人员和开发者快速复现实验结果,并在此基础上开发新的模型。
GitHub 地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/MRQA2019-BASELINE
NAACL2019-MPM: OleNet at SemEval-2019 Task 9: BERT based Multi-Perspective Models for Suggestion Mining
摘要:评论建议挖掘对提升企业服务具有极高价值。百度团队构建了以大规模无监督数据为基础的跨领域、多句式深度语义分类模型,以解决任务标注数据过于稀疏的问题。采用融合浅层学习和深度学习的 Ensemble 学习模型,以解决样本不平衡问题。面对网络文本形式多样、表达不规范的现状,团队采用精细化粒度特征和注意力迁移机制进行处理。最终,百度团队以 F 值 78.12% 的成绩战胜了来自全球的 210 余支队伍,夺得冠军。
应用价值:可以帮助企业及时获取消费者的评价以改进服务,可以促进政府和媒体从海量文本中提取意见以成为决策参考与新闻素材
GitHub 地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/NAACL2019-MPM
ACL2019-KTNET:Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension
摘要:机器阅读理解 (Machine Reading Comprehension) 是指让机器阅读文本,然后回答和阅读内容相关的问题。该技术可以使机器具备从文本数据中获取知识并回答问题的能力,是构建通用人工智能的关键技术之一,长期以来受到学术界和工业界的广泛关注。近两年,预训练语言表示模型在机器阅读理解任务上取得了突破性进展。通过在海量无标注文本数据上预训练足够深的网络结构,当前最先进的语言表示模型能够捕捉复杂的语言现象,更好地理解语言、回答问题。
然而,正如大家所熟知的,真正意义上的阅读理解不仅要求机器具备语言理解的能力,还要求机器具备知识以支撑复杂的推理。为此,在论文《Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension》中,百度开创性地提出了语言表示与知识表示的深度融合模型 KT-NET,希望同时借助语言和知识的力量进一步提升机器阅读理解的效果。
KT-NET 的模型架构如下图所示。首先,针对给定的阅读内容和结构化知识图谱,分别利用语言表示模型和知识表示模型对两者进行编码,得到相应的文本表示和知识表示。接下来,利用注意力机制从知识图谱中自动筛选并整合与阅读内容高度相关的知识。最后,通过双层自注意力匹配,实现文本表示和知识表示的深度融合,提升答案边界预测的准确性。截止到发稿日,KT-NET 仍然是常识推理阅读理解数据集 ReCoRD 榜单上排名第一的模型,并在此前很长一段时期内都是 SQuAD 1.1 榜单上效果最好的单模型。
应用价值:该项技术可应用于百度搜索问答、智能音箱等产品中,直接精准定位用户输入问题的答案,并在搜索结果首条显著位置呈现或通过语音播报呈现给用户,为用户节约大量的宝贵时间。
GitHub 地址:coming soon
ACL2019-SEEDS:Know More about Each Other: Evolving Dialogue Strategy via Compound Assessment
摘要:现有的基于监督学习的对话系统,缺乏对多轮回复方向的控制和规划,通常导致对话中发生重复、发散等问题,使得用户的交互体验偏差。在本文中,我们对多轮对话进行了复合评估 (compound assessment),并基于该评估利用强化学习优化两个自对话 (self-play) 的机器人,促进生成过程中较好地控制多轮对话的方向。考虑到对话的一个主要动机是进行有效的信息交换,针对 Persona Chat 问题(两个人相互对话聊兴趣爱好),我们设计了一个较为完善的评估系统,包括对话的信息量和连贯度两个主要方面。
我们利用复合评估作为 reward,基于策略梯度算法 (policy gradient),指导优化两个同构的对话生成机器人之间的对话策略 (dialogue strategy)。该对话策略通过控制知识的选择来主导对话的流向。我们公开数据集上进行了全面的实验,结果验证了我们提出的方法生成的多轮对话质量,显著超过其他最优方法。
应用价值:可以对聊天机器人设置人设信息,与用户进行更有信息量的智能个性化对话,也可以为智能客服添加背景信息,与用户进行深入的知识聊天。
论文地址:https://arxiv.org/abs/1906.00549
GitHub 地址:coming soon
ACL2019-STACL: Simultaneous Translation with Implicit Anticipation and Controllable Latency using Prefix-to-Prefix Framework
摘要:同声翻译是人工智能领域公认的最难问题之一,已经困扰学术界和工业界几十年了。我们提出了历史上第一个超前预测和可控延迟的同声翻译算法。去年 10 月发布以来,被各大技术外媒广泛报导,包括 MIT 技术评论、IEEE Spectrum、财富杂志等。量子位总结报道:「这是 2016 年百度 Deep Speech 2 发布以来,又一项让技术外媒们如此激动的新进展。」
应用价值:2018 年 11 月的百度世界大会采用了这项同传技术,全程同传翻译了李彦宏所有演讲,延迟仅为 3 秒左右,而之前的整句翻译技术延迟为一整句(可达 10 秒以上)。同时,翻译质量也没有明显的下降。
论文地址:https://arxiv.org/abs/1810.08398
GitHub 地址:coming soon
ACL2019:Robust Neural Machine Translation with Joint Textual and Phonetic Embedding
摘要:该文章旨在提高翻译的鲁棒性,特别是对同音词噪音的鲁棒性。我们在翻译的输入端,通过联合嵌入的方式,加入输入单词对应的发音信息。实验结果表明,该方法不仅大大提高了翻译系统在噪声情况下的鲁棒性,也大幅提高了翻译系统在非噪声情况下的性能。
应用价值:可用于翻译,特别是语音到语音的同声传译系统。语音翻译的一个主要难题是语音识别的错误太多,而这些错误大多是同音词或发音相似的单词,此技术可以很大程度上降低这些来自于语音识别的噪音。
论文地址:https://arxiv.org/abs/1810.06729
GitHub 地址:coming soon
想要了解更多百度 PaddleNLP-研究版,请点击阅读原文或查看以下链接:
百度 PaddleNLP-研究版主页地址:nlp.baidu.com/paddlenlp?type=research&fr=jqzx
百度 PaddleNLP-研究版 GitHub 地址:github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research?fr=jqzx