(2025,LLM,下一 token 预测,扩散微调,L2D,推理增强,可扩展计算)从大语言模型到扩散微调

embedded/2025/2/7 4:15:34/

Large Language Models to Diffusion Finetuning

目录

1. 概述

2. 研究背景

3. 方法

3.1 用于 LM 微调的高斯扩散

3.2 架构

4. 主要实验结果

5. 结论


1. 概述

本文提出了一种新的微调方法——LM to Diffusion (L2D),旨在赋予预训练的大语言模型(Large Language Models, LLMs)测试时可扩展计算能力。

研究发现,通过在推理过程中增加扩散步数,模型的准确性可以单调增加,从而提高在数学、编程和推理等下游任务中的性能。

此外,该方法可以结合强大的引导技术,优化计算资源的动态分配,同时保持语言模型的单步生成能力。

本文的主要贡献包括:

  • 提出 L2D 微调方法,结合语言模型的自回归能力和扩散模型的多步推理能力,利用语言模型的预测来更新扩散状态。
  • 证明 L2D 可扩展计算能力,通过增加计算资源提高推理质量。
  • 提升 LMs 在数学、编程和推理任务上的表现,同时保留其单步生成能力。
  • 实现高效微调:L2D 不修改模型原始参数,仅需修改少量参数,即可在多个任务上取得显著提升。  

2. 研究背景

当前自回归(autoregressive)大语言模型在推理能力上存在一定的局限性,主要体现在:

  • 无法根据任务的复杂度调整计算资源。
  • 生成结果的质量受限于单步预测,而无法进行多步优化。

扩散模型(Diffusion Models)在视觉领域的成功启发了研究人员尝试将其应用于语言建模,以引入多步推理的能力。然而,由于离散文本数据的特殊性,现有的扩散语言模型在性能上落后于自回归模型。

3. 方法

3.1 用于 LM 微调的高斯扩散

L2D 通过将 LMs 视为单步扩散模型,并在其基础上扩展多步推理能力,从而增强 LLM 的推理能力,而不会影响其原始的单步生成能力。

语言建模在有限词汇表 V 上定义的目标分布 p_1 上运行。给定一个由标签 y 索引的 token x_1,该 token 与来自目标数据分布 p_1 的先前 token c 的上下文一起采样,我们的扩散损失公式如下:

使用公式 3 训练扩散模型可以解释为标准的下一个 token 预测,其中为模型提供了一个额外的扩散 token x_t,包含有关目标 y 的一定程度的知识,范围从无信息(t = 0)到完美信息(t = 1)。

  • 当 t = 0 时,LM 本质上是用与 L2D 相同的预测目标进行训练的,此时 x_0 与目标 y 完全不相关。
  • 遵循算法 1 的推理涉及从模型的 logit 中迭代采样越来越准确的下一个 token ˆx,直到采样预算 T。
  • 传统的 LM 推理可以再次被视为此过程的特例(T = 1),其中仅使用模型的第一个样本来预测 y。

这些设计选择的目的是 L2D 旨在通过微调方法扩展预先训练的 LM,而不是从头开始学习新模型。

虽然从一开始就完全采用扩散训练可能看起来更为普遍,但我们认为这可能会失去传统自回归建模所固有的一些训练可扩展性和强大的归纳偏差。正是这些偏差使传统自回归建模在语言领域得到广泛确立。

3.2 架构

L2D 的实现设计为预训练 transformer 的模块化扩展,以有效利用扩散的多步扩展能力,同时保留其原始的单步生成能力。

L2D 在其架构中引入了一条 并行扩散路径,其中传播扩散 token x_t 的隐藏表示,仅在最后一层影响冻结的主 LM 路径

  • L2D 使用 transformer 架构以及与主路径 f_{θ_l} 相同数量的块来实现扩散路径 f_{θ_d} 。为了充分利用预训练 LM 的知识,扩散路径中的所有层也都使用来自 θ_l 的权重进行初始化。
  • 扩散路径中的 transformer 由一系列残差 MLP 和交叉注意模块组成。虽然 MLP 模块遵循与 f_{θ_l} 中相应模块相同的结构,但交叉注意模块专门参数化 query 和输出线性层。具体而言,在交叉注意期间,目标 token y_k 的扩散 token x^k_t 会关注从 f_{θ_l} 中相应的自注意模块计算出的所有先前的 key 和 value。
  • 最终,只在所有块之后,即 LM 的线性头之前,将 f_θ 中处理的信息整合回主路径。具体来说, 将这两条路径与元素加权和 f_{θ_l} + w_d·f_{θ_d} 合并,其中扩散 token x^k_t 的重新缩放潜变量被添加到前一个 token x^{k−1} 的潜变量中。

4. 主要实验结果

研究者在多个基准测试(benchmark)上对 L2D 进行了实验,包括:数学任务(GSM8K、MATH),编程任务(HumanEval、MBPP),知识推理任务(MMLU、MMLU-Pro)

增加扩散步数(计算量)能显著提高推理能力,但性能提升在一定步数后趋于稳定。 

L2D 在所有测试集上均提升了语言模型的性能,特别是在数学和编程任务上,表现尤为明显。

L2D 兼容现有的微调方法(如 LoRA 和全参数微调),且比传统微调方法更高效。

引导技术(Classifier-Free Guidance) 使 L2D 在特定任务上的表现进一步提升,允许用户在生成过程中指定任务需求。

5. 结论

L2D 通过结合扩散模型的推理增强能力,使大语言模型能够更高效地利用计算资源,提高复杂任务的推理能力。这项研究为未来的大语言模型微调提供了一条新的方向,通过引入扩散计算框架,使模型能够智能调整计算资源,提高推理质量,在多个领域展现出了良好的潜力。

【一个比较关心且重要的问题,新添加的扩散路径导致的额外计算开销是多少?原文并未提及】

论文地址:https://arxiv.org/abs/2501.15781

进 Q 学术交流群:922230617


http://www.ppmy.cn/embedded/160202.html

相关文章

Qt常用控件 多元素控件

文章目录 1. QListWidget1.1 常用属性和方法1.2 常用信号1.4 例子1,操作元素 2. QTableWidget2.1 常用属性和方法2.2 常用信号2.3 例子1,创建表格3.1 常用属性和方法3.2 常用信号3.3 例子1,创建树形结构 Qt中提供的多元素控件有: QListWidget…

ICANN 关闭 WHOIS Port 43

2025年1月28日,ICANN(互联网名称与数字地址分配机构)将正式终止WHOIS Port 43服务。这一决定标志着网络安全行业、域名注册机构以及依赖域名数据进行运营或调查的所有人迎来重要变革。那么,这一变化意味着什么?它将如何…

Linux 常用命令与实战教程

Linux 常用命令与实战教程 引言 Linux 是一个强大的开源操作系统,广泛应用于服务器、嵌入式系统、个人计算机等多个领域。其灵活性、稳定性和安全性使其成为开发人员和运维工程师的首选操作系统之一。对于开发者而言,熟练掌握 Linux 命令行不仅能提高工…

Sqoop支持ORC文件格式

个人博客地址:Sqoop支持ORC文件格式 | 一张假钞的真实世界 ORC介绍 ORC文件格式是Hive 0.11.0版本引入的一种文件格式。ORC的引入是为了解决其他Hive文件格式的局限性。使用ORC文件格式提升Hive读取、写入及处理数据的性能。 与RCFile对比,ORC文件格式有很多优点: 每个Ta…

Python-基于PyQt5,pdf2docx,pathlib的PDF转Word工具(专业版)

前言:日常生活中,我们常常会跟WPS Office打交道。作表格,写报告,写PPT......可以说,我们的生活已经离不开WPS Office了。与此同时,我们在这个过程中也会遇到各种各样的技术阻碍,例如部分软件的PDF转Word需要收取额外费用等。那么,可不可以自己开发一个小工具来实现PDF转…

vue中的v-cloak和v-pre有什么作用

v-cloak v-cloak用于防止vue模板在编译完成之前显示未编译的原始Mustache语法&#xff08;如 {{ message }}&#xff09;&#xff0c;用于防止页面闪烁。 使用场景&#xff1a; <div v-cloak>{{ message }} </div> <style>[v-cloak] {display: none;} <…

ONE NET MQTT+HTTP多端控制

使用移动的ONENET实现数据上传与远程控制&#xff0c;数据上传使用MQTT协议&#xff08;ESP8266&#xff09;&#xff0c;而数据查看和远程控制使用的HTTP&#xff08;安卓端/QT&#xff09;&#xff0c;效果&#xff1a; ONENET简单MQTT和HTTP使用 ESP8266通过MQTT上传和订阅数…

elasticsearch8.15 高可用集群搭建(含认证Kibana)

文章目录 1.资源配置2.系统参数优化3.JDK17安装4.下载&安装ES 8.155.生成ES的证书(用于ES节点之间进行安全数据传输)6.修改ES 相关配置文件7.创建es用户并启动8.配置ES的账号和密码(用于ES服务端和客户端)9.下载和安装Kibana10.编辑Kibana配置文件11.启动Kiabana12.访问Kia…