论文笔记:SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning

news/2024/10/31 4:09:47/

ACL 2024

1 intro

  • 基于 Transformer 的大模型一般都有很多层
    • 在广泛采用的 PEFT 技术(包括 Adapters 和 LoRA)中,尤其是在深层中,也存在过度平滑现象(即token之间的相似度很高)
  • 论文评估了同一语句中 token 之间的余弦相似性以检测过平滑现象
    • 给定一个包含m个 token的句子(h1,h2,....hm),其token间余弦相似性为
    • 结果如下:
      • 随着模型层数的增加,token之间越来越像了

  • ——>论文提出了 SIBO
    • 通过在 PEFT 模块(adapter/LORA)的输入中注入初始残差,减少了 Transformer 模型中的过平滑问题

2 方法

3 结果


http://www.ppmy.cn/news/1543264.html

相关文章

24年追觅科技入职北森测评笔试:商业推理40分钟28题真题汇总、网盘资料、资源下载

在追觅科技的北森测评中,考生将面临一场时间紧迫、题目密集的挑战。本文旨在为即将参加北森测评的考生提供一份详尽的备考指南,以确保在40分钟内完成28道题目的高效答题。 考试概览 北森商业综合推理测评是评估考生综合能力的重要工具,它主…

10.29

2.3 队列 队列(Queue),它是一种运算受限的线性表,先进先出(FIFO First In First Out) 队列是一种受限的线性结构 受限之处在于它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作 P…

【Python各个击破】numpy

简介 NumPy是一个开源的Python库,它提供了一个强大的N维数组对象和许多用于操作这些数组的函数。它是大多数Python科学计算的基础,包括Pandas、SciPy和scikit-learn等库都建立在NumPy之上。 安装 !pip install numpy导入 import numpy as np用法 # 创建1*6矩阵 a = np.a…

笑死人不偿命的联想:大象是什么?

element(元素)一词,起源不明。但是它长得很像elephant(大象)一词,其同通部分为ele-这一结构,因此我们很容易将两个单词进行拆分出来: element n.元素 // ele ment名缀elephant n.大…

51单片机快速入门之 AD(模数) DA(数模) 转换 2024/10/25

51单片机快速入门之 AD(模数) DA(数模) 转换 2024/10/25 声明:本文图片来源于网络 A模拟信号特点: 电压或者电流 缓慢上升 随着时间连续缓慢上升或下降 D数字信号特点:电压或者电流 保持一段时间的高/低电平 状态 / 突变 (高电压瞬间低电压) 数字电路中 通常将0-1v电压称…

RabbitMQ延迟消息插件安装(Docker环境)

背景:当我们需要使用RabbitMQ发送延迟消息的时候,为了简化延迟消息发送的实现,一般都会给RabbitMQ安装延迟插件"rabbitmq_delayed_message_exchange" 如下会说明使用Docker启动的RabbitMQ容器如何安装延迟消息插件。 1. Docker启动…

leetcode-189-轮转数组

题解: 代码:

Spring 的事务传播机制

Spring 的事务传播机制定义了一个事务方法在遇到已经存在的事务时如何处理。事务传播属性(Propagation)提供了七种机制,以适应不同的业务需求和事务边界管理。 1. Spring 的事务传播机制的类型 (1)REQUIRED&#xff…