高效微调理解(prompt-tuning,p-tuning v1,p-tuning v2,lora)

news/2024/10/21 17:39:17/

高效微调(prompt-tuning,p-tuning v1,p-tuning v2,lora)

1.prompt-tuning:

例子理解;保持原本模型参数不变,通过训练提示词的参数调整prompt,使其与下游任务匹配。
例子:

在这里插入图片描述

2.p-tuning:

与prompt-tuning不同的是, prompt 不再是固定的文本,而是通过可学习的向量来表示
例子:
在这里插入图片描述

3.p-tuning v2:

与p-tuning不同的是v2在每一层(encoder / decoder)都加入[learned prefix]。

4.lora:

Lora方法指的是在大型语言模型上对指定参数增加额外的低秩矩阵,也就是在原始PLM旁边增加一个旁路,做一个降维再升维的操作。并在模型训练过程中,固定PLM的参数,只训练降维矩阵A与升维矩阵B。而模型的输入输出维度不变,输出时将BA与PLM的参数叠加。用随机高斯分布初始化A,用0矩阵初始化B。
结构图:
在这里插入图片描述


http://www.ppmy.cn/news/1538392.html

相关文章

第六章:数据工程(6.3数据治理和建模--6.4数据仓库和数据资源)

6.3数据治理 6.3.1 元数据 数据治理是开展数据价值化活动的基础, 6.3.2 数据标准化 数据标准化的主要内容包括元数据标准化、数据元标准化、数据模式标准化和数据分类与编码标准化 数据标准化阶段的具体过程包括确定数据需求、制定数据标准、批准数据标准和实施…

Linux下Docker方式Jenkins安装和配置

一、下载&安装 Jenkins官方Docker仓库地址:https://hub.docker.com/r/jenkins/jenkins 从官网上可以看到,当前最新的稳定版本是 jenkins/jenkins:lts-jdk17。建议下在新的,后面依赖下不来 所以,我们这里,执行doc…

论文阅读笔记-Reformer: The Efficient Transformer

前言 Reformer: The Efficient Transformer 原始Transformer结构提出后,其中的Attention的 L 2 L^2 L2 计算复杂度以及整体模型的计算内存空间占用一直都是优化的一个方向。本篇文章提出的Reformer模型,通过改进Attention方式、可逆层等,来…

GitLab Runner 通过 Pipeline 流水线实现持续集成 CI

文章目录 1、基础环境2、安装 Docker3、安装 GitLab4、安装 JDK5、安装 Maven6、安装 GitLab Runner7、注册 GitLab Runner8、上传 GitLab9、配置 Pipeline 1、基础环境 本次演示搭建,我使用的是阿里云服务器,配置如下: 服务器1:…

SpringSecirity(四)——用户退出

因为JWT是无状态的,去中心化的,在服务器端无法清除,服务器一旦进行颁发,就只能等待自动过期 才会失效,所以需要redis配合才能完成登录状态的记录。 实现思路: 登录后在redis中添加一个白名单,把…

LeetCode23. 合并 K 个升序链表(2024秋季每日一题 36)

给你一个链表数组,每个链表都已经按升序排列。 请你将所有链表合并到一个升序链表中,返回合并后的链表。 示例 1: 输入:lists [[1,4,5],[1,3,4],[2,6]] 输出:[1,1,2,3,4,4,5,6] 解释:链表数组如下&#…

GS-LRM: Large Reconstruction Modelfor 3D Gaussian Splatting 论文解读

目录 一、概述 二、相关工作 1、多视图的三维重建 2、前馈重建 三、LRM 1、编码器 2、解码器 3、NeRF渲染 四、GS-LRM 1、输入处理 2、Transformer 3、损失函数 五、实验 六、局限 一、概述 该论文提出了一种利用稀疏输入图像高效预测3D高斯原语的方法&#xff…

Qt C++设计模式->中介者模式

中介者模式(Mediator Pattern)是一种行为型设计模式,定义了一个对象用于封装一系列对象之间的交互。中介者使得对象之间不再需要显式地相互引用,减少了对象之间的依赖关系,从而使系统更加松散耦合,并且可以…