@tobiaslee 推荐
#Attention Mechanism
本文是北京大学孙栩老师组发表在 EMNLP 2018 的作品。文章通过实验发现,在利用 Seq2Seq 模型解决 Multi-Label Classific(MLC)问题时,传统 Attention 机制起到的贡献较小。原因在于传统 Attention 机制关注的是 word-level,而分类任务往往依赖着整个句子的 salient meaning。
作者通过在 LSTM 产生的 word-level 上的表示进行多级的 Dilated Convolution 来捕获更高级别的 semantic unit(例如 phrases)的信息,进而增强 Seq2Seq 的效果。进一步地,作者将高层的 attention 和词级别的 attention 做了整合,提出 Hybrid Attention 来兼顾各个级别表示的信息。文章提出的模型在 RCV1-v2 和 Ren-CECps 上对比的 Seq2Seq 模型都有较大的性能提升。
论文链接
https://www.paperweekly.site/papers/2444
源码链接
https://github.com/lancopku/SU4MLC
@xwzhong 推荐
#Text Classification
本文是 fast.ai 和 Aylien 发表于 ACL 2018 的工作。迁移学习在 CV 领域已得到广泛应用,但 NLP 领域的现有方法通常仍需从头开始训练。在 ImageNet 的启发下,本文提出了基于微调的通用语言模型——ULMFiT,该模型可应用于 NLP 领域的各类任务,未来也可以尝试将预训练用于不同的 NLP 任务中。论文在六个文本分类数据集上验证了本文模型的有效性,此外,作者在实验中采用的多种 trick 也颇具借鉴意义。
论文链接
https://www.paperweekly.site/papers/1832
源码链接
http://nlp.fast.ai/category/classification.html
@icaruss 推荐
#Open-domain Chatbot
本文是微软发表于 NIPS 2018 的工作,这是一篇关于增加开放域聊天机器人多样性的文章。作者运用了 GAN 和 dual learning 的思想,针对原始的 MMI reranking 方法有所提高。
论文链接
https://www.paperweekly.site/papers/2447
@paperweekly 推荐
#Word Embeddings
本文是香港中文大学发表于 IJCAI 2018 的工作。为了更好地捕捉词汇固有语义和句法信息,本文提出了两种基于词汇共现和奇异值分解的嵌入模型。本文对两种语义关系进行建模,一种是加和操作,另一种是投影操作,从而确保单词向量位于特定的超平面中,以清晰地分离具有不同性质的单词。
论文链接
https://www.paperweekly.site/papers/2416
@paperweekly 推荐
#Dialog Systems
本文是剑桥大学和 PolyAI 发表于 EMNLP 2018 的工作,被评为 EMNLP 2018 最佳论文。论文提出了一个多领域绿野仙踪实验型数据集,这是一个具有标注的真人对话数据集,涵盖多个领域和主题。该数据集包含至少一万组对话,远超其他特定领域任务型对话研究所用的数据集。此外,本文还介绍了该数据集的构建过程、数据结构分析以及标注方法。作者通过在三个不同领域中进行实验对比,证明所构建数据集具有良好表现。
论文链接
https://www.paperweekly.site/papers/2428
源码链接
https://github.com/budzianowski/multiwoz