在自然语言生成上统一人类与统计评估
在论文《Unifying Human and Statistical Evaluation for Natural Language Generation》中,研究人员提出了一个统一的框架以同时评估生成质量与多样性,它主要通过预测一句话到底是机器生成语言还是人类语言,从而给出预测的最优误差率。研究表示,该误差率能通过结合人类和统计评估高效地估计,研究人员将使用的评估度量称之为 HUSE。在摘要生成和聊天对话生成中,研究人员证明了 (1) HUSE 能够检测到纯粹人类评估无法发现的多样性缺陷;(2) 退火等技术在提升质量的同时降低了HUSE值,即以降低多样性为代价。