论文地址:https://arxiv.org/abs/2310.05470 项目地址:https://gair-nlp.github.io/auto-j/ 代码地址:https://github.com/GAIR-NLP/auto-j
Auto-J 的 130 亿参数模型(使用方法,训练和测试数据也已经在 GitHub 上给出); 所涉及问询场景的定义文件; 每个场景手工构建的参考评估准则; 能够自动识别用户问询所属场景的分类器等。
支持 50 + 种不同的真实场景的用户问询(query)(如常见的广告创作,起草邮件,作文润色,代码生成等)能够评估各类大模型在广泛场景下的对齐表现; 它能够无缝切换两种最常见的评估范式 —— 成对回复比较和单回复评估;并且可以 “一器多用”,既可以做对齐评估也可以做 “奖励函数”(Reward Model) 对模型性能进一步优化; 同时,它也能够输出详细,结构化且易读的自然语言评论来支持其评估结果,使其更具可解释性与可靠性,并且便于开发者参与评估过程,迅速发现价值对齐过程中存在的问题。
在性能和效率上,Auto-J 的评估效果仅次于 GPT-4 而显著优于包括 ChatGPT 在内的众多开源或闭源模型,并且在高效的 vllm 推理框架下能每分钟评估超过 100 个样本。 在开销上,由于其仅包含 130 亿参数,Auto-J 能直接在 32G 的 V100 上进行推理,而经过量化压缩更是将能在如 3090 这样的消费级显卡上部署使用,从而极大降低了 LLM 的评估成本 (目前主流的解决方法是利用闭源大模型(如 GPT-4)进行评估,但这种通过调用 API 的评估方式则需要消耗大量的时间和金钱成本。)
成对回复比较的排行榜结果
下图例 1 为成对回复比较,红色字体高亮了显著区分两条回复的内容,并且用绿色字体高亮了 Auto-J 给出的评判中与用户偏好对齐的部分。
下图例 2 为单回复评估,绿色字体高亮了 Auto-J 给出的评判中切中要点的部分。
训练数据总体上遵循如下的流程示意图:
图1:训练数据收集流程示意图
为了更广泛的支持不同的评估场景,Auto-J 定义了 58 种不同的场景,分属于 8 大类(摘要,重写,代码,创作,考题,一般交流,功能性写作以及其他 NLP 任务)。
对于每个场景,研究者手动编写了一套用作参考的评估标准(criteria),覆盖了这类场景下常见的评估角度,其中每条标准包含了名称和文本描述。评估标准的构建遵循一个两层的树状结构:先定义了若干组通用基础标准(如文本与代码的一般标准),而每个场景的具体标准则继承了一个或多个基础标准,并额外添加了更多的定制化标准。以上图的 “规划”(planning)场景为例,针对这一场景的标准包括了该场景特定的内容与格式标准,以及继承而来的基础标准。
收集来自多种场景的用户问询和不同模型的回复:
Auto-J 被定位成能够在定义的多种广泛场景上均表现良好,因此一个重要的部分就是收集不同场景下相应的数据。为此,研究者手动标注了一定量用户问询的场景类别,并以此训练了一个分类器用以识别任意问询的所属场景。在该分类器的帮助下,成功从包含了大量真实用户问询和不同的模型回复的若干数据集中(如 Chatbot Arena Conversations 数据集)通过降采样的方式筛选出了类别更加均衡的 3436 个成对样本和 960 个单回复样本作为训练数据的输入部分,其中成对样本包含了一个问询,两个不同的针对该问询的回复,以及人类标注的偏好标签(哪个回复更好或平局);而单回复样本则只包含了一个问询和一个回复。
收集高质量的评判(judgment):
针对 Auto-J 所支持的多个功能,分别构建了不同的测试基准以验证其有效性:
在成对回复比较任务上,评估指标为与人类偏好标签的一致性,以及在交换输入中两个回复的顺序前后模型预测结果的一致性。可以看到 Auto-J 在两个指标上均显著超过了选取的基线模型,仅次于 GPT-4。
在单回复评论生成任务上,将 Auto-J 生成的评论与其他模型的评论进行了一对一比较,可以看到不管是基于 GPT-4 的自动比较还是人类给出的判决,Auto-J 所生成的评论都显著优于大部分基线,且略微优于 GPT-4。
研究者还探索了 Auto-J 作为奖励模型(Reward Model)的潜力。在常用的检测奖励模型有效性的 Best-of-N 设定下(即基座模型生成多个候选答案,奖励模型根据自身输出选择最佳回复),Auto-J 给出的单回复打分比各类基线模型能选出更好的回复(以 GPT-4 评分为参考)。同时,其打分也显示了与 GPT-4 打分更高的相关性。