NLP论文速读(微软出品)|使用GPT-4进行指令微调(Instruction Tuning with GPT-4)

ops/2024/11/19 15:52:30/

论文速读|Instruction Tuning with GPT-4

论文信息:

图片

简介:

      这篇论文试图解决的问题是如何通过指令调优(instruction-tuning)提升大型语言模型(LLMs)在执行新任务时的零样本(zero-shot)能力。具体来说,它探讨了使用机器生成的指令跟随数据来微调大型语言模型,以提高其在没有人类编写指令的情况下完成新任务的能力。本文的动机源于先前研究表明,通过指令调优可以显著提升LLMs在新任务上的零样本性能。然而,现有的方法依赖于人类标注的提示和反馈,或者使用公开基准和数据集进行监督微调,这些方法成本较高且可能不够高效。因此,研究者们探索了一种称为自我指令调优(Self-Instruct tuning)的方法,该方法通过学习由最先进的指令调优教师模型生成的指令跟随数据来对齐LLMs与人类意图。本文的动机是利用最新的GPT-4模型生成的指令跟随数据来进一步提高开源LLMs的性能。

论文方法:

图片

      本文提出了首次使用GPT-4作为教师模型进行自我指令调优的尝试。研究者们生成了52K的英文和中文指令跟随数据,并基于这些数据开发了指令调优的LLaMA模型和奖励模型。为了全面评估指令调优LLMs的质量,研究者们使用了三种评估指标:人类对三个对齐标准的评估、使用GPT-4反馈的自动评估,以及对不自然指令的ROUGE-L评估。此外,研究者们还收集了GPT-4的反馈和比较数据,用于训练奖励模型。论文中还提供了算法伪代码,详细说明了提示工程、GPT-4调用和数据生成中的超参数。研究者们还对比了使用GPT-4和GPT-3.5生成的指令跟随数据的输出响应集,以及这些数据在不同评估标准下的性能表现。

论文实验:

图片

      Figure 1 展示了使用 GPT-4 和 GPT-3 生成的指令跟随数据的比较。这个比较涵盖了几个关键的统计数据和可视化图表,以展示两种模型在生成响应时的差异。Figure 1(a) 和 (b) 展示了 GPT-4 和 GPT-3 在输出响应中的根动词和直接宾语名词的组合。这些组合反映了模型生成响应的基本内容和结构。内部圆圈代表输出响应的根动词,外部圆圈代表直接宾语名词。这些图表显示了每个模型生成的响应中最常见的动词-名词对,以及它们的频率。Figure 1(c) 展示了两组数据中频率最高的 25 个动词-名词对,并比较了它们的频率。这有助于理解模型在生成响应时的常用短语和结构。Figure 1(d) 比较了 GPT-4 和 GPT-3 生成的输出序列长度的频率分布。这显示了模型生成响应的长度差异,以及它们在不同长度上的分布情况。GPT-4 倾向于生成更长的序列,而 GPT-3.5 生成的输出分布有一个更长的尾部,这可能是因为 Alpaca 数据集在每次迭代中都移除了相似的指令实例,而当前的数据生成过程是一次性的。

论文链接:

https://arxiv.org/abs/2304.03277

原文来自:

NLP论文速读(微软出品)|使用GPT-4进行指令微调


http://www.ppmy.cn/ops/135011.html

相关文章

python+Django+MySQL+echarts+bootstrap制作的教学质量评价系统,包括学生、老师、管理员三种角色

项目介绍 该教学质量评价系统基于Python、Django、MySQL、ECharts和Bootstrap技术,旨在为学校或教育机构提供一个全面的教学质量评估平台。系统主要包括三种角色:学生、老师和管理员,每个角色有不同的功能权限。 学生角色:学生可…

【taro react】 ---- 解决 input 、textarea 层级穿透

1. 问题效果图 2. 穿透原因 2.1 原生组件 2.2 层级限制 2.3 原生组件同层渲染 3. 解决办法 使用 alwaysEmbed 属性,强制 input 处于同层状态,默认 focus 时 input 会切到非同层状态 (仅在 iOS 下生效)。

数据库审计工具--Yearning 3.1.9普民的使用指南

1 页面登录 登录地址:18000 (不要勾选LDAP) 2 修改用户密码 3 DML/DDL工单申请及审批 工单申请 根据需要选择【DML/DDL/查询】中的一种进行工单申请 填写工单信息提交SQL检测报错修改sql语句重新进行SQL检测,如检测失败可以进行SQL美化后…

如何提升自己的情商?

在当今社会,情商的重要性越来越被人们所认识和重视。无论是职场发展、人际关系,还是自我成长,情商都起着关键的作用。那么,如何提升自己的情商呢? 一、自我认知:了解自己,方能明智处世 自我认…

c++模板——我的周年庆

1.搜索 搜索包括深度优先搜索和广度优先搜索,这两种算法是算法竞赛的基础。本专题全面介绍这两种算法的思想、编码、应用和扩展。它不仅能直接用于解决问题,也启发了很多高级算法 搜索简介 搜索是 "暴力法" 算法思想的具体实现。暴力法(Brute Force)又称为蛮力法…

社交电商的优势及其与 AI 智能名片小程序、S2B2C 商城系统的融合发展

摘要:本文深入分析了社交电商相较于传统电商的优势,包括门槛低、易操作、更生活化和可团队化运作等特点。同时,探讨了 AI 智能名片小程序和 S2B2C 商城系统在社交电商发展中的作用,以及它们与社交电商融合所带来的新机遇和发展前景…

MQTT 服务器常用的有哪些?

MQTT(Message Queuing Telemetry Transport)是一种轻量级的消息传输协议,常用于物联网(IoT)设备之间的通信。以下是一些常用的 MQTT 服务器(也称为 MQTT Broker): 1.Eclipse Mosqui…

Inpaint-Web:纯浏览器端实现的开源图像处理工具

之前在刷短视频的时候,经常看到一些情侣在景区拍照,结果被路人“抢镜”。有时男朋友会拿出手机,帮忙把那些路人“P”掉,简直是既贴心又有趣。最近我在逛 GitHub 时,发现了一个可以在浏览器端删除照片中部分内容的纯前端…