2019 NLP大全:论文、博客、教程、工程进展全梳理(长文预警)

2019 年对自然语言处理(NLP)来说是令人印象深刻的一年。本文将着重讲述一些 2019 年我在机器学习和自然语言处理领域有所见闻的重要事件。我会把重点主要放在自然语言处理上,但也会涉及若干人工智能领域的趣闻。主要内容包括研究论文、博客、工具和数据集、社区讨论、教程资源等。

长文预警,建议先点收藏。

目录

  • 研究论文
  • 机器学习/自然语言处理的创造力和社群
  • 工具和数据集
  • 博文文章
  • 教程资源
  • 人工智能伦理学

研究论文

2019 年,谷歌人工智能团队带来了 ALBERT,它是用于情境化语言表征的自监督学习模型 BERT 的精简版。主要的改进在于减少了冗余,更加有效地分配了模型的性能。此方法在 12 个自然语言处理任务上达到了当前最佳性能(SOTA)。

2018 年底,英伟达的研究者们发表了一份热门论文 (A Style-Based Generator Architecture for Generative Adversarial Networks)(取名为 StyleGAN),提出了对抗生成网络的另一种生成器架构,灵感来自于风格迁移问题。2019 年,这份工作有了更新 (Analyzing and Improving the Image Quality of StyleGAN),着重研究了诸如重新设计生成器正则化的过程等方面。

上面一行为目标图像,下面一行为合成图像。图源:https://arxiv.org/abs/1912.04958

2019 年,我最喜欢的论文之一是 code2seq (https://code2seq.org/),这是一种从结构化表征的代码中生成自然语言序列的方法。这样的研究可以对自动代码摘要和文档化的应用起到助益。

你可曾想过,有没有可能为生物医学文本挖掘训练一个生物医学的语言模型?答案就是 BioBERT (BioBERT: a pre-trained biomedical language representation model for biomedical text mining),这是一个可以从生物医学文献中提取重要信息的语境化模型。

在 BERT 发表后,Facebook 的研究者们发布了 RoBERTa (RoBERTa: A Robustly Optimized BERT Pretraining Approach),引入新的优化方法来改进 BERT,也在多项自然语言处理的基准测试中达到了当前最优效果。

最近,Facebook 人工智能部门的研究者们还发表了一种基于全注意力层来改进 Transformer 语言模型效率的方法 (https://ai.facebook.com/blog/making-transformer-networks-simpler-and-more-efficient/)。这个研究组的其它工作 (https://ai.facebook.com/blog/-teaching-ai-to-plan-using-language-in-a-new-open-source-strategy-game/) 还包括了如何教人工智能系统通过制定计划来使用自然语言。

全注意力层。图来:https://arxiv.org/pdf/1907.01470.pdf

可解释性仍然是机器学习和自然语言处理领域的重要议题。这篇论文 (Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI) 对于可解释性、分类法以及未来研究的机遇提供了一份全面的综述。

Sebastian Ruder 的博士论文也值得一看,题为:Neural Transfer Learning for Natural Language Processing。

新加坡国立大学等机构的研究者开发了一种方法 (Emotion Recognition in Conversations with Transfer Learning from Generative Conversation Modeling),能够在对话的情境下实现情绪识别,这将为情感化的对话生成铺平道路。

另一项相关工作则是用一种叫做 DialogueGCN (DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation) 的图神经网络方法,来探测对话中的情绪。作者还提供了代码实现:https://github.com/SenticNet/conv-emotion/tree/master/DialogueGCN。

谷歌量子人工智能团队在 Nature 发表了一篇论文,声称开发了一台量子计算机,速度比世界上最大的超级计算机更快。

之前提到过,可解释性是神经网络架构里需要大幅改进的一个领域。这篇论文 (Attention is not not Explanation) 讨论了在语言模型的情境下,注意力机制作为可解释性的一种可靠方法所具有的局限性。

神经逻辑机 (Neural Logic Machines) 是一种神经符号网络架构,在归纳学习和逻辑推理上效果都不错。这个模型尤为擅长数组排序和寻找最短路径之类的任务。

神经逻辑机架构。图源:https://arxiv.org/pdf/1904.11694.pdf

这里还有一篇论文 (On Extractive and Abstractive Neural Document Summarization with Transformer Language Models),把 Transformer 语言模型应用到了抽取式和摘要式 Neural document summarization。

研究者们开发出了一种方法,着重于利用比较来打造和训练机器学习模型。这种方法 (https://blog.ml.cmu.edu/2019/03/29/building-machine-learning-models-via-comparisons/) 不需要大量的特征-标签对,它将图像与之前见过的图像相比较,以判定这张图像是否应该属于某个标签。

Nelson Liu 等发表的论文 (Linguistic Knowledge and Transferability of Contextual Representations) 讨论了 BERT 和 ELMo 等预训练的语境模型所捕捉到的语言学知识类型。

XLNet 是一种自然语言处理的预训练方法,在 20 个任务上比 BERT 更胜一筹。我在这里(https://medium.com/dair-ai/xlnet-outperforms-bert-on-several-nlp-tasks-9ec867bb563b) 写过一篇关于这项重要研究的总结。

这份 DeepMind 的研究 (Learning and Evaluating General Linguistic Intelligence) 展示了一项涉及面广泛的实证调查结果,其目的为评估用于各种任务的语言理解模型。这项分析对于更好地理解语言模型捕获的内容、提高模型效率尤为重要。

VisualBERT (VisualBERT: A Simple and Performant Baseline for Vision and Language) 是一个小而强大的框架,用于为图像-语言类任务建模,相关任务包括 VQA 、Flickr30K 等。这个方法运用了堆叠的 Transformer 层和自注意力机制,来对齐一段文本和一块图像区域之中的元素。

这份研究 (To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks) 提供了一份比较自然语言处理迁移学习方法的详尽分析,以及为自然语言处理工作者们准备的指南。

Alex Wang 和 Kyunghyun 提出了 BERT 的一种实现方法 (BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model),可以生成高质量且流畅的结果。你可以使用这份 Colab 笔记本来试试:https://colab.research.google.com/drive/1MxKZGtQ9SSBjTK5ArsZ5LKhkztzg52RV

Facebook 的研究者们发布了 XLM 的 PyTorch 版代码 (https://github.com/facebookresearch/XLM),这是一个跨语言的预训练模型。

这份研究 (https://www.cl.uni-heidelberg.de/statnlpgroup/blog/rl4nmt/) 对神经机器翻译领域强化学习算法的应用做了综合分析。

这篇在 JAIR 上发表的论文 (A Survey of Cross-lingual Word Embedding Models) 对跨语言词嵌入模型的训练、评估和使用做了全面综述。

The Gradient 上发表了一篇极佳的文章 (https://thegradient.pub/the-promise-of-hierarchical-reinforcement-learning/),详述了当前强化学习的局限性,并提供了利用分层强化学习的潜在发展方向。很快就有人发布了一系列优秀的教程 (https://github.com/araffin/rl-tutorial-jnrr19/blob/master/1_getting_started.ipynb),你可以通过这组教程来开始接触强化学习

这篇论文 (Contextual Word Representations: A Contextual Introduction) 是情境化词表征的精简版入门读物。

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
入门NLP
172
相关数据
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

对话生成技术

对话生成是能经由对话或文字进行交谈的计算机程序任务。能够模拟人类对话,通常以通过图灵测试为评估标准。

奥利给!
浙江大学・计算机・硕士
ooo里给