大模型微调:RHLF与DPO浅析

news/2024/9/17 14:21:17/ 标签: 人工智能, chatgpt

大模型应用性能的提升不仅在于其预训练,而微调的作用也非常显著。对于多数从事大模型应用领域的团队而言,微调是一个核心的工作之一,为专门任务完善大模型并确保其产出符合我们的预期。

1. 关于微调

微调涉及调整预训练的LLM ,以更有效地执行特定的功能,提高其在不同应用程序中的效用。尽管LLM通过预训练获得了广泛的知识基础,仍需要定制以在特定领域或任务中表现出色。例如,对一般数据集上训练的大模型进行微调,以理解医学语言或法律术语的细微差别,使其在这些环境中更相关、更有效。关于微调的更多内容可以参考《解读大模型的微调》。

在众多的微调技术中, RLHF 利用复杂的反馈回路,结合人工评估和奖励模型来指导人工智能的学习过程。而DPO 采用了更直接的方法,直接运用人的偏好来影响模型的调整。这两种策略的目的都是提高模型的性能,确保产出符合用户的需要,但它们的运作原则和方法各不相同。

2. RLHF

关于RLHF 的基本原理可以参考《解读ChatGPT中的RLHF》一文,这里做一下回顾。首先澄清的是,强化学习是一种用于微调人工智能模型的技术,目的是根据人类的反馈来提高模型的性能。而RLHF 的核心组成部分包括被微调的语言模型,评估语言模型输出的奖励模型,以及通知奖励模型的人类反馈。这个过程确保语言模型产生的输出更符合人的偏好。

RLHF 以强化学习为基础,模型从动作中学习,而不是从静态数据集中学习。不像监督式学习那样,模型从标记的数据或非监督式学习中学习,模型识别数据中的模式,强化学习模型从他们行为的后果中学习,受到奖励的指导。在 RLHF 中,“回报”是由人的反馈决定的,这意味着模型成功地产生了理想的输出。

95e6c5a35a1a3ce8dcd0c1e0b48b6759.jpeg

2.1 大模型的自我监督预训练

从收集一个庞大而多样化的数据集开始,通常包括广泛的主题、语言和写作风格。这个数据集作为语言模型的初始训练场。

利用这个数据集,模型进行自我监督学习。在这里,模型被训练来预测给定其他部分的文本部分。例如,它可以根据前面的单词预测句子中的下一个单词。这个阶段帮助模型掌握语言的基础知识,包括词法、语法和一定程度的上下文理解。成果是一个基础模型,可以生成文本并理解某些上下文,但缺乏针对特定任务的专门化微调。 

2.2 基于人工反馈对模型输出排名

一旦预训练完成,模型开始生成文本输出,然后由人进行评估。这可能包括完成句子、回答问题或进行对话等任务。人类评估者使用评分系统对每个输出进行评分。他们考虑的因素包括文本的相关性、连贯性或吸引力。这种反馈至关重要,因为它将模型引入到人类的偏好和标准中。 

注意确保评价人员的多样性并减少反馈中的偏见。这有助于为模型的输出创建一个平衡和公平的评估标准。 

2.3 训练奖励模型来模仿人类评分

人类评估者的得分和反馈被用来训练一个单独的模型,称为奖励模型。该模型旨在理解和预测人类评估者对语言模型生成的任何文本的评分。这个步骤可能涉及反馈收集和奖励模型调整的几个迭代,以准确捕获人的偏好。 

2.4 使用来自奖励模型的反馈来微调语言模型

从奖励模型中获得的见解被用来微调语言模型。这包括调整模型的参数,以增加生成与奖励行为一致的文本的可能性。 

采用近似政策优化(PPO)等技术有条不紊地调整模型。该模型被鼓励去“探索”生成文本的不同方式,但是当它生成的输出可能从奖励模型中获得更高的分数时,它会得到更多的“奖励”。这个微调过程是迭代的,可以通过新的人工反馈和奖励模型调整来重复,不断改进语言模型与人类偏好的一致性。 

6168135a6258472f13982b2b72a2de6a.jpeg

RLHF 的迭代过程允许不断改进语言模型的输出。通过反馈和调整的反复循环,该模式完善了生成文本的方法,更好地生成符合人类质量和相关性标准的产出。

3. DPO

DPO 是基于人类直接反馈可以有效地指导人工智能行为发展的原理而提出的。通过直接利用人的偏好作为训练信号,DPO 简化了校准过程,将其框定为一个直接学习任务。这种方法被证明是高效和有效的,提供了优于传统的强化学习方法。

简而言之,直接偏好优化(DPO)是一种通过将人的偏好直接纳入训练过程来调整大型语言模型(LLM)的简化方法。这种技术简化了人工智能系统的适应性,以更好地满足用户需求,绕过了与构建和利用奖励模型相关的复杂性。

27e9dff3525bb9c4c1b54c0ac36175af.jpeg

3.1 模型的自我监督预训练

从自我监督学习开始,接触到大量的文本数据。这可以包括从书籍和文章到网站的所有内容,包括各种主题、风格和上下文。模型学习预测文本序列,基本上填充空白或根据前面的上下文预测后续的单词。这种方法有助于模型掌握语言结构、语法和语义的基本原理,而不需要明确的面向任务的指令。 

建立一个基本语言模型,能够理解和生成连贯的文本,可以根据具体的人类偏好进一步专门化。 

3.2 收集问答对并获取人工评分

模型生成一对文本输出,这些输出可能在语气、风格或内容焦点方面有所不同。然后,这些对以一种比较格式呈现给人类评估者,询问两者中哪一个更符合某些标准,如清晰度、相关性或参与度。

评价者提供他们的偏好,这些偏好被记录为直接反馈。这一步对于捕捉人类的细微判断是至关重要的,这些判断可能不会从纯粹的定量数据中看出来。评价者提供他们的偏好,这些偏好被记录为直接反馈。这一步对于捕捉人类的细微判断是至关重要的,这些判断可能不会从纯粹的定量数据中看出来。

3.3 使用基于交叉熵的损失函数训练模型

使用成对的例子和相应的人类偏好,使用二元交叉熵损失函数对模型进行微调。这种统计方法将模型的输出与首选结果进行比较,量化模型的预测与所选择的首选结果的匹配程度。

8ff036921326e6f4bdd0cfa561e0549a.jpeg

调整模型的参数,以最小化损失函数,有效地使优先输出更有可能在未来几代。这个过程迭代地改进了模型与人类偏好的一致性,提高了产生与用户产生共鸣的文本的能力。 

3.4 约束模型以保持其生成性

尽管模型正在进行微调,以便与人类的偏好紧密一致,但确保模型不会丧失其生殖多样性是至关重要的。这个过程包括仔细调整模型,以纳入反馈,而不是过于适合具体的例子或限制其创造能力。技术和保障措施已经到位,以确保模式仍然能够产生广泛的反应。这包括定期评估模型的输出多样性和实施机制,以防止其生成能力收窄。

最终模型保留了其产生多样化和创新文本的能力,同时显著更符合人的偏好,表明增强了以有意义的方式吸引用户的能力。

DPO 将语言模型的调整视为基于人类反馈的直接最佳化问题,从而消除了单独奖励模型的需要。这种简化减少了模型训练通常涉及的复杂性层次,使得过程更加有效,并直接侧重于根据用户偏好调整人工智能输出。

4. RLHF 与 DPO的对比分析

RLHF能够处理多种反馈,这使得 RLHF 在需要详细定制的任务中占据优势。这使得它非常适合需要深刻理解和细微调整的项目。它的复杂性和对奖励模型的需求,这使得它在计算资源和设置方面更加苛刻。此外,反馈的质量和多样性可以显著影响微调工作的效果。 

RLHF 擅长于需要定制输出的场景,如开发聊天机器人或需要深入理解上下文的系统。它处理复杂反馈的能力使它在这些应用中非常有效。 

674e72445148479dbc26de3a08ac68e1.jpeg

DPO 的流程更直接,这意味着调整更快,对计算资源的需求更少。它直接集成了人的偏好,从而与用户的期望保持紧密一致。DPO 的主要问题是,对于需要更多细微差别反馈的任务,它可能做得不够好,因为它依赖于二进制选择。此外,收集大量的人工注释数据可能是具有挑战性的。

当您需要快速人工智能模型调整并且计算资源有限时,DPO 是您的选择。它特别适用于调整文本中的情绪或归结为“是”或“否”选项的决策等任务,在这些任务中,可以充分利用其直接的优化方法。

RLHF 与 DPO的特性对比如下:

指标特性RHLFDPO
数据需求需要不同的反馈,包括数字评分和文本注释,需要综合的反馈组合。通常依赖于人工评分的样本对,简化了偏好学习过程,减少了复杂的输入。 
训练特点奖励模型的迭代引入,多步骤且计算密集型。通过直接使用人的偏好,更加直观并提升计算效率,往往导致更快的收敛。
性能表现能够提供适应性和微妙的影响,可能导致在复杂情况下的优越性能。 有效地快速调整模型输出与用户偏好,但可能缺乏多种反馈的灵活性。 
策略优势灵活处理不同的反馈类型; 适合于详细的输出形成和复杂的任务。 简化和快速的微调过程; 以较少的计算资源直接结合人的偏好。
局限约束复杂的设置和较高的计算成本; 反馈的质量和多样性会影响结果。 除了二分选择之外,可能还会遇到复杂的反馈问题; 收集大量带注释的数据是一项挑战。
典型场景最适合需要个性化或定制输出的任务,如会话代理或上下文丰富的内容生成。 非常适合需要快速调整的项目,并与人的偏好密切结合,如情绪分析或二元决策系统。 

5. 策略选择

RLHF 是一个详细的,多步骤的过程,通过使用奖励模型提供深度定制的潜力。它特别适合于微妙的反馈至关重要的复杂任务。 

DPO 通过直接应用人的偏好简化了微调过程,为模型优化提供了更快、更少资源密集的路径。 

RLHF 和 DPO 之间的策略选择应遵循以下几个因素: 

  • 任务复杂性: 如果您的项目涉及到复杂的交互或者需要理解细微的人类反馈,RLHF 可能是更好的选择。对于更直接的任务或需要快速调整时,DPO 可能更有效。

  • 资源考量: 考虑计算资源和人工注释器的可用性。DPO 通常在计算能力方面要求较低,在收集必要数据方面可以更直接。 

  • 期望控制水平: RLHF 提供了更多的细粒度控制微调过程,而 DPO 提供了一个直接的路径,以调整模型输出与用户的喜好。评估在微调过程中需要多少控制和精度。

6. 一句话小结

通过强化学习,利用人类反馈(RLHF)和直接偏好优化(DPO)微调大模型,能够保证相对准确地产生一些关键的见解,使人工智能在适应性、高效率和符合人类价值观方面发挥重要作用。

【参考资料与关联阅读】


http://www.ppmy.cn/news/1524896.html

相关文章

50projects50days案例代码分析学习、效果,Html+CSS+JavaScript小案例

案例来源于:https://github.com/bradtraversy/50projects50days,部分资源需要科学上网加载使用,往后不再赘述。 合集链接,欢迎订阅: https://mp.weixin.qq.com/mp/appmsgalbum?__bizMzkwODY2OTA5NA&actiongetal…

ai智能语电销机器人有哪些功能?

近几年火爆的AI语音机器人,已经可以成熟的服务于金融贷款、理财、房地产、电商、汽车等行业,成熟的适用于电话销售、客服服务、售后管理等等基础岗位,那么ai智能语电销机器人有哪些功能?我们来看一看。 顾名思义,智能…

数据结构 栈 队列

系统栈: 保护局部变量 函数的形参和返回值 函数的调用关系(保护现场,恢复现场操作,遵循先进后出,后进先出) 数据结构栈(顺序栈,链式栈): 同样遵遵循先进…

Linux操作系统入门(一)

Linux操作系统是开源的类Unix操作系统内核,由林纳斯托瓦兹在1991年创建。 Linux操作系统以其强大的性能、稳定性和开放性,赢得了全球用户的广泛认可,从服务器到个人电脑,从超级计算机到嵌入式设备,都有它的身影。作为…

vue如何做到计算属性传参?

1.计算属性传参,还在return一个函数? let nameFull computed(() > {return e > {console.log(参数, e)} }) 那这样的话,干脆直接写一个函数 2.真正的计算属性传参,借助map实现 import { computed } from "vue&quo…

手把手教你给服务器安装及使用ESXI系统

ESXi(以前称为 ESX Server)是由 VMware 开发的一款企业级的裸机虚拟化管理程序(hypervisor)。ESXi 允许直接在物理硬件上运行,并在其上创建和管理多个虚拟机(VMs),每个虚拟机都可以运…

Python酷库之旅-第三方库Pandas(116)

目录 一、用法精讲 511、pandas.DataFrame.std方法 511-1、语法 511-2、参数 511-3、功能 511-4、返回值 511-5、说明 511-6、用法 511-6-1、数据准备 511-6-2、代码示例 511-6-3、结果输出 512、pandas.DataFrame.var方法 512-1、语法 512-2、参数 512-3、功能…

Element UI入门笔记(个人向)

Element UI入门笔记 将页面分割为一级菜单、二级菜单、导航栏三个部分;使用npm下载安装,使用语句npm i element-ui -s; 布局组件 el-form 用于创建和管理表单;从属性上看: :model:用于双向数据绑定,将表单…

3C电子胶黏剂在手机制造方面有哪些关键的应用

3C电子胶黏剂在手机制造方面有哪些关键的应用 3C电子胶黏剂在手机制造中扮演着至关重要的角色,其应用广泛且细致,覆盖了手机内部组件的多个层面,确保了设备的可靠性和性能。以下是电子胶在手机制造中的关键应用: 手机主板用胶&…

Android Framework(五)WMS-窗口显示流程——窗口布局与绘制显示

文章目录 relayoutWindow流程概览应用端处理——ViewRootImpl::setView -> relayoutWindowViewRootImpl::setViewViewRootImpl::performTraversalsViewRootImpl::relayoutWindow Surface的创建WindowManagerService::relayoutWindow了解容器类型和Buff类型的SurfaceBuff类型…

调接口某个属性信息为null

1、问题描述 通过feign调用别的系统接口,发现有个属性,获取的值始终是null。 找接口提供方,提供方自测接口,是有返回值的。 2、问题排查 接口调用过程如图: (1)接口提供方开发接口test (2) …

【渗透测试】——DVWA靶场搭建

📖 前言:DVWA(Damn Vulnerable Web Application)是一个用于安全漏洞测试的 PHP/MySQL 网络应用,旨在为安全专业人士提供一个合法的环境,以测试他们的技能和工具,同时帮助 Web 开发者更好地理解 …

【UI】element ui table(表格)expand实现点击一行展开功能

文章目录 前言涉及知识点:代码部分隐藏小箭头总结 前言 element ui是一个非常不错的vue的UI框架,element对table进行了封装,简化了vue对表格的渲染。 element ui表格中有一个功能是展开行,在2.0版本官网例子中,只可以…

斯坦福研究人员探讨大型语言模型在社交网络生成中的应用及其在政治同质性上的偏见

社交网络生成在许多领域有着广泛的应用,比如流行病建模、社交媒体模拟以及理解社交现象如两极化等。当由于隐私问题或其他限制无法直接观察真实网络时,创建逼真的社交网络就显得尤为重要。这些生成的网络对于在这些情况下准确建模互动和预测结果至关重要…

相机光学(三十七)——自动对焦原理

1.自动对焦的三种方式 目前在手机上采用的自动对焦系统包括反差对焦、相位对焦和激光对焦三种方案,下面我们来看一下它们的工作原理和相互之间的区别是什么。 1.1反差对焦【CDAF】- Contrast Detection Auto Focus 反差对焦是目前普及率最高、使用最广泛、成本相对…

透视表支持自定义聚合公式,新增字体管理功能,DataEase开源BI工具v2.10 LTS版本发布

2024年9月9日,人人可用的开源BI工具DataEase正式发布v2.10 LTS(Long Term Support)版本。DataEase开源项目组将对v2.10 LTS版本提供长期支持,定期迭代发布小版本,持续进行问题修复更新并针对部分功能进行优化。欢迎广大…

谋算中的因果与归纳不同于计算中的因果与归纳

谋算中的因果与归纳不同于计算中的因果与归纳。计算中的因果与归纳是基于已有的数据和信息,通过数学运算和逻辑推理得出结论。而谋算中的因果与归纳则是基于对未来的预测和判断,通过分析和推理得出结论。因此,谋算中的因果与归纳需要更多的主…

rsync+inotify 实现数据实时同步

Rsync(远程同步,Remote Sync)是一款开源的、快速的、多功能的、可实现全量及增量的本地或远程数据同步备份的优秀工具,并且可以不进行改变原有数据的属性信息,实现数据的备份迁移特性。Rsync软件适用于unix/linux/windows等多种操…

铭顺元宇宙时代到来,数字人应用案例分享

近年来,随着技术的不断发展,数字人的功能和表现力也在不断提升,形形色色的虚拟数字人正代替真人,扮演着代言人、主播、客服和智能助理的角色,涉及文旅、电商、金融等多个行业。作为随着AI技术在数字人产业中的发展&…

<数据集>二维码识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:1601张 标注数量(xml文件个数):1601 标注数量(txt文件个数):1601 标注类别数:1 标注类别名称:[QR] 序号类别名称图片数框数1QR16016286 使用标注工具:l…