对齐新范式:修正未对齐的答案比生成对齐的回答更容易。
论文地址:https://arxiv.org/abs/2402.02416 项目主页 & 开源地址:https://aligner2024.github.io 题目:Aligner : Achieving Efficient Alignment through Weak-to-Strong Correction
Correcting unaligned answer is easier than generating aligned answers. 修正未对齐的回答要比生成对齐的回答容易。
作为一个自回归 Seq2Seq 模型,Aligner 在问题-答案-修正后的答案(Query-Answer-Correction, Q-A-C)数据集上训练,学习对齐与未对齐答案之间的差异,从而实现了更精准的模型对齐。例如,在对齐 70B LLM 时,Aligner-7B 大规模降低了训练参数量,相较于 DPO 小 16.67 倍,比 RLHF 小 30.7 倍。
Aligner 范式实现了从弱到强的泛化,采用高较小参数量的 Aligner 模型监督信号微调参数量大的 LLMs ,显著提升了强模型的性能。例如,利用 Aligner-13B 监督下微调 Llama2-70B,其帮助性和安全性分别提升了 8.2% 和 61.6%。
由于 Aligner 即插即用的特性以及它对模型参数并不敏感,它能够对齐如 GPT3.5、GPT4 和 Claude2,这些无法获取参数的模型。仅一次训练,Aligner-7B 对齐并提升了包括闭源、开源及安全 / 未安全对齐模型在内的 11 种模型的帮助性和安全性。其中 Aligner-7B 显著提升了 GPT-4 的帮助性和安全性,分别提高了 17.5% 和 26.9%。
作者从各种开源数据集中获取 Query,包括 Stanford Alpaca、ShareGPT、HH-RLHF 以及其他用户共享对话。这些问题经历了重复模式去除和质量过滤的过程,用于后续的答案和更正的答案生成。未修正的回答则是使用各种开源模型生成的,如 Alpaca-7B、Vicuna-(7B,13B,33B)、Llama2-(7B,13B)-Chat, and Alpaca2-(7B,13B)。
基于上述过程,作者构建了新的修正数据集,其中表示用户的问题,是问题的原始答案,是根据既定原则修正的答案。
值得注意的是,Aligner 在训练和推理阶段都不需要访问上游模型的参数。Aligner 的推理过程只需要获取用户的问题和上游大语言模型生成的初始答案,然后生成更符合人类价值观的答案。