Tuna: Instruction Tuning using Feedback from Large Language Models

news/2024/10/21 7:34:56/

本文是LLM系列文章,针对《Tuna: Instruction Tuning using Feedback from Large Language Models》的翻译。

Tuna:使用来自大型语言模型的反馈的指令调优

  • 摘要
  • 1 引言
  • 2 方法
  • 3 实验
  • 4 相关工作
  • 5 结论
  • 局限性

摘要

使用更强大的LLM(如Instruction GPT和GPT-4)的直接输出,对LLaMA等开源大型语言模型(LLM)进行指令调整,已被证明是一种使模型行为与人类偏好保持一致的经济高效的方法。然而,指令调优模型每个指令只看到一个响应,缺乏潜在更好响应的知识。在本文中,我们建议使用我们新颖的概率排名和上下文排名方法来微调指令调整LLM,以增加生成更好响应的可能性。概率排名使指令调整模型能够继承教师LLM的高质量和低质量回答的相对排名。另一方面,使用上下文排序的学习允许模型使用更强LLM的上下文理解能力来细化自己的响应分布。此外,我们将概率排序和上下文排序顺序应用于指令调优LLM。由此产生的模型,我们称之为Tuna,持续提高了超级自然指令(119个测试任务)、LMentry(25个测试任务,Vicuna QA)的性能,甚至可以获得比几个强强化学习基线更好的结果。我们的代码和数据可在https://github.com/microsoft/LMOps上获得。

1 引言

2 方法

3 实验

4 相关工作

5 结论

在本文中,我们建议使用我们的概率排序方法(Tunap)、上下文排序方法(Tunac)以及两者的组合(Tuna)来微调指令调整LLM。我们的综合实验表明,在三个基准测试中,性能得到了一致的改进:超级自然指令(119个测试任务)、LMentry(25个测试任务)和vicuna QA。此外,我们的方法优于从依赖于近端策略优化算法的人类反馈基线中进行的流行强化学习。这些发现强调了我们的方法在提高基于指令的LLM的性能方面的有效性,并为该领域的未来研究铺平了道路。

局限性

尽管我们的Tuna模型取得了可喜的成果,但仍有一些局限性需要承认。第一个限制是GPT-4排名不一致。在我们的实验中,我们依赖GPT-4进行上下文排名,由于其排名性能的不一致性,这可能会引入偏差。作为一种强大的LLM,GPT-4通常被期望提供准确可靠的排名;然而,它可能仍然对提示的措辞或结构敏感。这种不一致性可能导致排名不理想,并可能影响Tuna模型的整体性能。在未来的工作中,设计更强大的提示将是有益的,可以减轻GPT-4排名不一致的影响。另一个限制是评估基准。在本文中,我们在三个基准上评估了Tuna模型,这些基准提供了各种各样的任务和挑战。然而,目前尚不清楚Tuna模型能在多大程度上推广到其他类型的任务、领域或语言。需要进一步研究,以探索Tuna模型在更广泛的问题和环境中的适用性。最后一个限制是依赖于使用专有LLM,如GPT-4和text-davinci-003,来生成响应和排名。对于无法获得这些专有模型的研究人员来说,这种依赖性可能会限制我们方法的可及性和再现性。开发能够利用开源LLM或其他排名机制的替代方法将是未来研究的一个有价值的方向。


http://www.ppmy.cn/news/1192840.html

相关文章

京东科技埋点数据治理和平台建设实践 | 京东云技术团队

导读 本文核心内容聚焦为什么要埋点治理、埋点治理的方法论和实践、奇点一站式埋点管理平台的建设和创新功能。读者可以从全局角度深入了解埋点、埋点治理的整体思路和实践方法,落地的埋点工具和创新功能都有较高的实用参考价值。遵循埋点治理的方法论,…

01【保姆级】-GO语言特点 下载安装 hello

01-GO语言基本概念和安装使用 一、概念1.1 Go语言的诞生1.2 GO语言的特点: 二、安装go2.1 安装2.2 安装环境变量 三、下载&安装goland3.1 官网下载3.2 下载后,进行安装: 四、Go语言的特性(重点)4.1 第一个hello wo…

Unity热更新

1,热更新的概念与作用 app更新通常分为两类,一种是整包更新(换包),一种是热更新(不换包,通过网络下载,动态更新资源等)。 整包更新,是指在需要更新时&#x…

CSS以及JavaScript

目录 一.CSS 1.overflow溢出属性 2.定位 二.JavaScript基础 1.JavaScript引入方式 2.JavaScript数据类型 常用方法: 字符串常用方法: 在js里,什么是真,什么是假 数组的常用方法 运算符 (1)算数运…

ARM版CentOS Linux系统镜像安装教程

Linux系统受程序员钟爱,目前国内常见版本有Ubuntu和CentOS等,CentOS是较为稳定的Linux系统。如何在苹果电脑上安装Linux系统呢,小编为大家准备了ARM版CentOS Linux系统镜像文件资源,一起来看看吧! ARM版CentOS Linux系…

常用的vue UI组件库

背景:Vue.js 是一个渐进式 javascript 框架,用于构建 UIS(用户界面)和 SPA(单页应用程序)。UI 组件库的出现提高了我们的开发效率,增强了应用的整体外观、感觉、交互性和可访问性,下…

The 2021 China Collegiate Programming Contest (Harbin) J B I D

Dashboard - The 2021 China Collegiate Programming Contest (Harbin) - Codeforces J 给一个n * m的矩阵,求该矩阵中有少个数既是改行最小,也是该列最小的。 数据范围是1000,可以先预处理行、列最小值,之后挨个判断是不是行最…

在NISQ小型计算机上执行大型并行量子计算的可能性

简介 Steve White提出了密度矩阵重整化群(DMRG)的基本思想,即纠缠是一种有价值的资源,可以用来精确或近似地描述大量子系统。后来,这一思想被理解为优化矩阵积状态(MPS)的算法,支持…