摘要

像ChatGPT这样的大型语言模型由于能够很好地遵循用户指令而被广泛采用。开发这些LLM涉及一个复杂但鲜为人知的工作流程，需要通过人工反馈进行训练。复制和理解此指令跟随过程面临三大挑战：数据收集成本高、缺乏可靠的评估以及缺乏参考方法实现。我们通过AlpacaFarm解决了这些挑战，该模拟器能够以低成本进行研究和开发，从反馈中学习。首先，我们设计LLM提示来模拟人类的反馈，它比众包工作者便宜45倍，并显示出与人类的高度一致性。其次，我们提出了一种自动评估，并根据在现实世界交互中获得的人类指令对其进行验证。第三，我们为从成对反馈中学习的几种方法（PPO、最佳n、专家迭代等）提供了参考实现。最后，作为AlpacaFarm的端到端验证，我们在10k对真实人类反馈上训练和评估了11个模型，并表明在AlpacaFarm中训练的模型排名与在人类数据上训练的模型的排名相匹配。作为对AlpacaFarm可能进行的研究的证明，我们发现使用奖励模型的方法可以显著改善过度监督的微调，并且我们的参考PPO实施导致对Davinci003的胜率提高+10%。

1 引言

2 背景与问题描述

3 构造AlpacaFarm

4 验证AlpacaFarm模拟器

5 AlpacaFarm的基准参考方法

6 相关工作

7 不足和未来方向

GPT4和人类反馈之间的差异。我们的沙箱假设LLM可以模拟人类的反馈。第4节表明，从LLM注释与人类偏好模式一致并复制其许多特征的意义上讲，这一假设成立。然而，我们也观察到，没有一个基于LLM的注释器能够捕捉到人类注释的异质性，并且必须在AlpacaFarm中训练的方法的排名的模拟偏好中注入大量的噪声，以匹配那些用真实人类反馈训练的方法。
此外，我们发现，与人类反馈相比，使用模拟反馈进行训练的学习算法的合适超参数可能不同。例如，由于替代奖励模型的值的尺度的变化，RLHF的合适KL正则化系数的范围是不同的。这表明，AlpacaFarm模拟器目前并不总是适合帮助进行超参数调整，以提高人类评估的性能。
最后，我们注意到，我们的偏好模拟器针对我们招募的众包工作者进行了验证，并因此模拟了他们的偏好可变性。将见解转移到其他更一致的众包池的最佳提示可能涉及较低级别的噪音或较小的提示集合。