从涌现和扩展律到指令微调和 RLHF,OpenAI 科学家带你进入 LLM 的世界。
我们越来越希望教会模型掌握更抽象的行为 指令微调的目标函数似乎是教授这些行为的「瓶颈」 最大似然目标是「预定义的」函数(即不可学习的参数) 我们能否参数化目标函数并学习它?
最大似然有过于强大的归纳偏见,当模型规模变大时,这个问题会更显著; 学习目标函数是一种不同的范式,有助于缓解这个问题,能提供很大的提升空间,ChatGPT 等一些成功利用 RLHF 的案例只是一个开始; 其原理很可靠,值得进一步发掘其功效。