Tuna: Instruction Tuning using Feedback from Large Language Models

本文是LLM系列文章，针对《Tuna: Instruction Tuning using Feedback from Large Language Models》的翻译。

Tuna:使用来自大型语言模型的反馈的指令调优

摘要
1 引言
2 方法
3 实验
4 相关工作
5 结论
局限性

摘要

使用更强大的LLM（如Instruction GPT和GPT-4）的直接输出，对LLaMA等开源大型语言模型（LLM）进行指令调整，已被证明是一种使模型行为与人类偏好保持一致的经济高效的方法。然而，指令调优模型每个指令只看到一个响应，缺乏潜在更好响应的知识。在本文中，我们建议使用我们新颖的概率排名和上下文排名方法来微调指令调整LLM，以增加生成更好响应的可能性。概率排名使指令调整模型能够继承教师LLM的高质量和低质量回答的相对排名。另一方面，使用上下文排序的学习允许模型使用更强LLM的上下文理解能力来细化自己的响应分布。此外，我们将概率排序和上下文排序顺序应用于指令调优LLM。由此产生的模型，我们称之为Tuna，持续提高了超级自然指令（119个测试任务）、LMentry（25个测试任务，Vicuna QA）的性能，甚至可以获得比几个强强化学习基线更好的结果。我们的代码和数据可在https://github.com/microsoft/LMOps上获得。

1 引言

2 方法

3 实验

4 相关工作

5 结论

在本文中，我们建议使用我们的概率排序方法（Tunap）、上下文排序方法（Tunac）以及两者的组合（Tuna）来微调指令调整LLM。我们的综合实验表明，在三个基准测试中，性能得到了一致的改进：超级自然指令（119个测试任务）、LMentry（25个测试任务）和vicuna QA。此外，我们的方法优于从依赖于近端策略优化算法的人类反馈基线中进行的流行强化学习。这些发现强调了我们的方法在提高基于指令的LLM的性能方面的有效性，并为该领域的未来研究铺平了道路。

局限性

尽管我们的Tuna模型取得了可喜的成果，但仍有一些局限性需要承认。第一个限制是GPT-4排名不一致。在我们的实验中，我们依赖GPT-4进行上下文排名，由于其排名性能的不一致性，这可能会引入偏差。作为一种强大的LLM，GPT-4通常被期望提供准确可靠的排名；然而，它可能仍然对提示的措辞或结构敏感。这种不一致性可能导致排名不理想，并可能影响Tuna模型的整体性能。在未来的工作中，设计更强大的提示将是有益的，可以减轻GPT-4排名不一致的影响。另一个限制是评估基准。在本文中，我们在三个基准上评估了Tuna模型，这些基准提供了各种各样的任务和挑战。然而，目前尚不清楚Tuna模型能在多大程度上推广到其他类型的任务、领域或语言。需要进一步研究，以探索Tuna模型在更广泛的问题和环境中的适用性。最后一个限制是依赖于使用专有LLM，如GPT-4和text-davinci-003，来生成响应和排名。对于无法获得这些专有模型的研究人员来说，这种依赖性可能会限制我们方法的可及性和再现性。开发能够利用开源LLM或其他排名机制的替代方法将是未来研究的一个有价值的方向。