论文阅读:LM-Cocktail: Resilient Tuning of Language Models via Model Merging

news/2024/12/22 0:13:22/

论文链接
代码链接

Abstract

预训练的语言模型不断进行微调,以更好地支持下游应用。然而,此操作可能会导致目标领域之外的通用任务的性能显著下降。为了克服这个问题,我们提出了LM Cocktail,它使微调后的模型在总体上保持弹性。我们的方法以模型合并(Model Merging)的形式进行,其中微调的语言模型通过加权平均与预训练的基础模型或其他领域的对等模型合并。尽管简单,LM Cocktail却出奇地有效:由此产生的模型在整个通用任务领域内拥有强大的性能,同时在其目标领域保持卓越的能力。我们在流行的基准测试(包括FLAN、MMLU、MTEB)上使用LLama和BGE模型进行了全面的实验,其结果验证了我们提出的方法的有效性。

1. Introduction

语言模型(LM)是人工智能自然语言处理的基石。得益于训练规模和模型尺寸的大规模扩张,语言模型在各种NLP任务上取得了显著突破,包括表示(representation),


http://www.ppmy.cn/news/1533494.html

相关文章

9.26 Buu俩题解

[CISCN2019 华东北赛区]Web2 看wp写完之后写的 知识点 存储型XSS与过滤绕过sql注入 题解 好几个页面,存在登录框可以注册,存在管理员页面(admin.php) ->既然存在管理员页面,且直接访问admin.php提示我们 说明存在身份验证&#xff0…

蓝桥杯—STM32G431RBT6(TIM定时器输入捕获频率和占空比)

一、什么是输入捕获?对比输出捕获区别? 输入捕获是指对输入信号的特定事件进行检测和记录它主要用于测量输入信号的时间间隔、频率等参数。而输出捕获则是对输出信号的特定事件进行控制和监测。两者的主要区别在于作用对象不同,输入捕获关注的…

第2篇:Linux入侵排查----应急响应篇

第2篇:Linux入侵排查 0x00 前言 当企业发生黑客入侵、系统崩溃或其它影响业务正常运行的安全事件时,急需第一时间进行处理,使企业的网络信息系统在最短时间内恢复正常工作,进一步查找入侵来源,还原入侵事故过程&…

Java中的HTTP请求:简化你的网络通信

在现代软件开发中,网络通信是一项基本而重要的技能。对于Java开发者来说,掌握如何在Java中发送HTTP请求是必不可少的。无论是调用RESTful API、上传文件到服务器,还是与其他Web服务交互,Java都提供了多种工具来简化这些任务。本文…

矩阵学习过程中的一些思考

2024.09.27(学习鸢尾花书_矩阵力量_Ch20) (1)所有中心过原点的椭圆都可以用一个二维矩阵表示,且特征值表示长短轴长度,特征向量表示长短轴所在方向的单位向量(表征椭圆旋转方向)&am…

回归预测|基于卷积神经网络-支持向量机的数据回归预测Matlab程序CNN-SVM 卷积提取特征与原始特征进行融合预测

回归预测|基于卷积神经网络-支持向量机的数据回归预测Matlab程序CNN-SVM 卷积提取特征与原始特征进行融合预测 文章目录 一、基本原理原理流程总结 二、实验结果三、核心代码四、代码获取五、总结 回归预测|基于卷积神经网络-支持向量机的数据回归预测Matlab程序CNN-SVM 卷积提…

第七章 DockerFile

目录 一、概念 二、Dockerfile的常用指令 三、构建镜像 四、CMD和ENTRYPOINT命令的区别 五、EXPOSE指令详解 引言:在上一章《容器数据卷》中,已经给大家简单的介绍了下DockerFile,那么在本章中我们将详细来讲讲DockerFile。 一、概念 …

C#获取变量的数据类型_C#获取对象的数据类型

C#中的数据类型用 Type 类描述,具体的类型是 Type的对象 一、object.GetType() 对象.GetType()-----对象不能为null,否则运行报错; 通用的获取类型方式 底层对象获取类型,所有的对象,变量获取类型,GetType(); 返回的…