BSChecker:细粒度大模型幻觉检测工具与基准测试排行榜
细粒度幻觉检测框架,对大模型输出文本进行三元组粒度的幻觉检测。 幻觉检测基准测试集,包含三种任务场景,满足用户的不同需求。 两个基准测试排行榜,目前涵盖15个主流大模型的幻觉检测结果。
项目地址:https://github.com/amazon-science/bschecker-for-fine-grained-hallucination-detection 排行榜地址:https://huggingface.co/spaces/xiangkun/BSChecker-Leaderboard
吴京在电影《战狼》中饰演了主角冷锋。
基于大模型的声明抽取器:作者发现大模型很擅长提取声明三元组,在当前版本中,他们使用 GPT-4 和 Claude 2 作为声明抽取器。 基于人工或模型的幻觉检测器:对于给定的声明三元组和参考文本,标注者可以相应地进行标注,如下图所示。该标注工具也将很快发布。基于模型的幻觉检测器将在后续的自动评估排行榜章节中介绍。
开源声明抽取器和幻觉检测器:目前,性能最好的配置使用了闭源的商业大模型,作者在当前版本中也包含了一个基于自然语言推理的幻觉检测器,尽管速度更快,但在处理长文档时仍存在较大的性能差距。 错误记忆追溯:对于无上下文场景,使用搜索引擎查找最新的参考文献是一种非常简略的解决方案。但理想情况下,我们应该回到大模型的训练数据,去追溯有问题的记忆。 三元组抽取的优化:三元组是简洁的,但在处理更复杂的语义时存在困难。它们也是对文本的一个采样,因此不能涵盖文本中的全部语义,也不善于处理上下文中的细微差别。 幻觉检测证据的定位:将三元组映射回文本可能并不容易,例如在处理多步推理时存在挑战。 对齐人工评估结果:在复杂环境中,特别是在复杂上下文中缩小检测器和人工评估者之间的差距。 扩展任务覆盖:大模型在许多不同的任务和场景中被使用。由于资源限制,本研究在某些领域的覆盖范围较小。例如,在当前的基准测试集中,仅有 6 个示例涵盖了摘要任务。 平衡真实性与有益性:BSChecker 目前仅评估幻觉的数量,这可以通过生成真实但无益的文本来操纵评估结果,正如作者观察到的一些大模型的表现那样。因此,对于 BSChecker 来说,引入一个关于有益性的评估标准可能很重要。