面对当前微调大模型主要依赖人类生成数据的普遍做法,谷歌 DeepMind 探索出了一种减少这种依赖的更高效方法。
生成(E-step):语言模型为每个输入上下文生成多个输出样本,然后使用二元奖励过滤这些样本以收集训练数据集。 改进(M-step):原始语言模型在来自前一个 E-step 的训练数据集上进行监督微调,然后在下一个 E-step 中使用。
![图片](https://image.jiqizhixin.com/uploads/editor/93bdd22e-5a25-4a02-ac13-98c3869e750b/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/a29efe5a-2c4a-4b2b-bb75-a2cd6b7fb382/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/6421004f-46fb-4d45-ad2d-462ba57fd12e/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/3f8e8554-826d-4301-8f0c-2761a5746d3d/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/21599e6a-4793-4af5-bb6e-82dd39b5e998/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/adead8b7-bb76-47d3-9c87-549ecd4f6e19/640.png)
与人类生成的数据进行微调相比,ReST^𝐸𝑀的效果如何? 需要多少次迭代才能获得最佳性能?ReST^𝐸𝑀多长时间会导致训练集过度拟合? ReST^𝐸𝑀如何影响 pass@k 和多数投票表现? 如果用户在特定任务上使用模型生成的数据进行微调,是否会迁移到其他任务上?在广泛的任务中评估本文的微调模型时,与基本模型相比,性能是否会下降? 大约需要多少输入数据才能从 ReST^𝐸𝑀 获得大部分性能提升?ReST^𝐸𝑀的一次迭代是否足够?
![图片](https://image.jiqizhixin.com/uploads/editor/6000120c-bf01-4335-97d1-08ec170a5393/640.png)