摘要:
为特定任务调整大型语言模型 (LLM) 通常涉及通过使用人类反馈 (RLHF) 的强化学习对偏好数据进行微调。 虽然这些数据通常来自不同的标注者群体(例如,不同的文化背景、种族、公司团队等),但传统的 RLHF 方法采用“一刀切”的方法,即,它们不加区分地假设并优化一个单一的偏好模型,因此无法适应各种群体的独特特征和需求。 为了解决这一局限性,我们提出了一种新颖的集体鲁棒偏好优化 (GRPO) 方法,以鲁棒地将 LLM 与各个群体的偏好对齐。 我们的方法建立在无奖励直接偏好优化方法的基础上,但与以前的方法不同,它寻求一个鲁棒策略,最大化最坏情况下的群体性能。 为了实现这一点,GRPO 适应性地和顺序地加权不同群体的权重,优先考虑累积损失较差的群体。 我们从理论上研究了 GRPO 的可行性,并分析了其对对数线性策略类别的收敛性。 通过使用基于群体的全球意见数据,使用 GRPO 对 LLM 进行微调,我们显着提高了表现最差群体的性能,减少了群体之间的损失不平衡,并与非鲁棒基线相比提高了概率精度。
1. GRPO 算法介绍
Group Relative Policy Optimization (GRPO) 是一种新型的强化学习算法,专门用于优化大语言模型(LLMs)