纽约大学,Facebook 人工智能实验室新研究:非似然训练下的神经文本退化
近日,来自纽约大学,Facebook 人工智能研究小组以及 CIFAR Azrieli Global Scholar 的研究团队发表了一篇名为「非似然训练下的神经文本退化」的研究。以下是该论文完整摘要:神经文本生成是自然语言应用程序中不可或缺的工具,然而其核心同时也存在重大的问题。特别是标准似然训练和解码所导致的过于简单以及重复的反应。虽然许多研究已经提出了一些事后修正(例如 top-k 以及 nucleus 采样),但这些研究并没有改变模型本身预测的令牌级概率很差这一事实。在该研究中,研究人员阐述了似然目标本身是错误的这一事实,它将导致模型为包含重复和频繁词的序列分配太多概率,而这和人类训练分布完全不同。为了解决这一问题,研究人员提出了一个新目标,非似然训练。它将迫使模型以较低的概率分配非似然生成。研究表明,非似然训练的选择以及排序等级可以在保持困惑度的同时减少简单以及重复的文本,而使用标准贪婪或束搜索的生成将获得更多的优先权。该方法时传统训练方案的有力替代选择。