文章库 PRO通讯会员 SOTA！模型

行业内参

AI Daily

AI Daily 快讯 · 2019/04/15

在自然语言生成上统一人类与统计评估

在论文《Unifying Human and Statistical Evaluation for Natural Language Generation》中，研究人员提出了一个统一的框架以同时评估生成质量与多样性，它主要通过预测一句话到底是机器生成语言还是人类语言，从而给出预测的最优误差率。研究表示，该误差率能通过结合人类和统计评估高效地估计，研究人员将使用的评估度量称之为 HUSE。在摘要生成和聊天对话生成中，研究人员证明了 (1) HUSE 能够检测到纯粹人类评估无法发现的多样性缺陷；(2) 退火等技术在提升质量的同时降低了HUSE值，即以降低多样性为代价。

PM 3:51arxiv.org

登录后评论

暂无评论

暂无评论~

登录

PRO会员通讯

文章库 PRO通讯会员 SOTA！模型