国防科大:双目标优化防止LLM灾难性遗忘

ops/2025/2/6 17:05:13/

在这里插入图片描述

📖标题:How to Complete Domain Tuning while Keeping General Ability in LLM: Adaptive Layer-wise and Element-wise Regularization
🌐来源:arXiv, 2501.13669

🌟摘要

🔸大型语言模型(LLM)展现出强大的通用语言能力。然而,在特定领域的任务上对这些模型进行微调通常会导致灾难性的遗忘,即模型覆盖或丢失在预训练期间获得的基本知识。这种现象极大地限制了LLM的广泛适用性。
🔸为了应对这一挑战,我们提出了一种新的方法来计算模型参数的元素重要性,这些参数对于在微调过程中保留一般知识至关重要。我们的方法采用了一种双目标优化策略:(1)正则化损失,以保留对一般知识至关重要的参数;(2) 交叉熵损失,以适应特定领域的任务。此外,我们引入逐层系数来解释不同层的不同贡献,动态平衡双射优化。
🔸使用GPTJ和LLaMA-3对科学、医学和物理任务进行的广泛实验表明,我们的方法在增强模型适应性的同时减轻了灾难性遗忘。与以前的方法相比,我们的解决方案大约快20倍,只需要10%-15%的存储空间,突出了实际效率。代码将被发布。

🛎️文章简介

🔸研究问题:大语言模型(LLM)进行领域特定微调时出现灾难性遗忘,即在适应新领域的同时难以保持模型的通用能力。
🔸主要贡献:论文提出了一种新的微调框架,通过自适应层和元素正则化,有效减少了灾难性遗忘,同时显著降低了计算时间和存储需求,提升了模型的效率和可扩展性。

📝重点思路

🔸双目标优化策略:结合正则化损失和交叉熵损失,前者减少对通用知识关键参数的更新,后者增强领域特定学习。
🔸元素级重要性记录:通过计算每个参数对损失函数减少的贡献,记录其在通用任务中的重要性,指导新任务的微调过程。
🔸层间加权正则化:根据不同层对通用能力和领域特定能力的贡献,动态调整正则化权重,确保某些层优先学习任务,而其他层保留通用知识。
🔸低秩矩阵更新:使用LoRA(低秩适应)方法,仅更新低秩矩阵,减少计算成本和存储需求。

🔎分析总结

🔸性能提升:在多个数据集上,使用主流LLMs(如GPT-J和LLaMA-3)进行实验,证明了该方法在保持通用能力的同时,显著提升了领域特定任务的性能。
🔸计算效率:与之前的方法相比,计算时间减少了近20倍,存储需求仅为10%∼15%,显著提高了方法的实用性和可扩展性。
🔸正则化系数分析:通过调整正则化系数,找到了在任务性能和通用能力之间取得平衡的最优值。
🔸层间重要性分析:发现不同层对通用知识的保留和领域特定学习的影响不同,验证了层间加权正则化的有效性。

💡个人观点

论文的核心在于识别不同参数和层对新任务的贡献,针对性优化贡献多的部分,而贡献少的则减少训练以维持通用能力。

🧩附录

在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/ops/156197.html

相关文章

了解linux-5.4.31/drivers/gpio/gpiolib-devres.c中的devm_gpiod_get_optional()函数

1、打开“drivers/gpio/gpiolib-devres.c” /** 获取GPIO线的索引,查找“设备资源”,分配“设备资源数据”,注册“设备资源”; * devm_gpiod_get_optional - Resource-managed gpiod_get_optional() * dev: GPIO consumer * con_id: function within the GPIO consumer * fla…

LabVIEW自定义测量参数怎么设置?

以下通过一个温度采集案例,说明在 LabVIEW 中设置自定义测量参数的具体方法: 案例背景 ​ 假设使用 NI USB-6009 数据采集卡 和 热电偶传感器 监测温度,需自定义以下参数: 采样率:1 kHz 输入量程:0~10 V&a…

【数据结构】_链表经典算法OJ:相交链表

目录 1. 题目链接及描述 2. 解题思路 2.1 思路1:一个链表把另外一个链表的结点逐个轮一遍 2.2 思路2:截断长链表,从距离交点结点前等距处开始同时遍历(本题解法) 3. 程序 关于解题程序的细节: 3.1…

暴力破解与验证码安全

目录 前言 暴力破解:简单粗暴的黑客攻击手段 暴力破解的前提条件 暴力破解的定义与原理 常见的暴力破解工具 暴力破解的常见场景 暴力破解的危害 验证码:抵御暴力破解的第一道防线 验证码的定义与作用 验证码的工作原理 验证码的类型 验证码…

JDK17主要特性

JDK 17,也被称为Java 17或Java Platform, Standard Edition 17,是Java编程语言的第十七个主要版本,由Oracle公司在2021年9月发布。Java 17是一个长期支持(LTS,Long-Term Support)版本,这意味着它…

蓝桥杯之c++入门(一)【C++入门】

目录 前言5. 算术操作符5.1 算术操作符5.2 浮点数的除法5.3 负数取模5.4 数值溢出5.5 练习练习1:计算 ( a b ) ⋆ c (ab)^{\star}c (ab)⋆c练习2:带余除法练习3:整数个位练习4:整数十位练习5:时间转换练习6&#xff…

【论文投稿-第八届智能制造与自动化学术会议(IMA 2025)】HTML, CSS, JavaScript:三者的联系与区别

大会官网:www.icamima.org 目录 前言 一、HTML(超文本标记语言):网页的骨架 HTML 的作用: 例子: 总结: 二、CSS(层叠样式表):网页的外观设计 CSS 的…

Kafka分区策略实现

引言 Kafka 的分区策略决定了生产者发送的消息会被分配到哪个分区中,合理的分区策略有助于实现负载均衡、提高消息处理效率以及满足特定的业务需求。 轮询策略(默认) 轮询策略是 Kafka 默认的分区策略(当消息没有指定键时&…