[论文阅读73]Prefix-Tuning:Optimizing Continuous Prompts for Generation

news/2024/11/30 1:41:38/

1. 基本信息

题目论文作者与单位来源年份
Prefix-Tuning:Optimizing Continuous Prompts for GenerationXiang Lisa Li等 Stanford UniversityAnnual Meeting of the Association for Computational Linguistics2021

Citations 1009, References

论文链接:https://aclanthology.org/2021.acl-long.353.pdf

论文代码:Code XiangLi1999/PrefixTuning +  additional community code

2. 要点

研究主题问题背景核心方法流程亮点数据集结论论文类型关键字
语言大模型微调大模型,针对一个任务一个大模型的问题。冻结语言模型参数,优化一个小的连续特定的向量(称为prefifix), Prefifix-tuning的启发于prompting, 使得这个Prefifix像是虚拟的字符。对于每个任务只调试prefix并保存这些调试的参数就可以,区别于之前的全参微调。E2E (Novikova et al., 2017), WebNLG (Gardent et al., 2017), and DART (Radev et al., 2020), XSUM以0.1% 的训练参数的训练结果与全参训练相当。模型方法prefifix-tuning

Prefix-tuning与Fine-tuning区别:

p9bXM4I.png

3. 模型(核心内容)

假设拥有一个适当的上下文可以在不改变LM参数的情况下引导LM。

不是优化离散标记,而是将指令优化为连续的单词嵌入。

以一些例子来说明这个模型:

p9bX526.png

对于一个自回归的LM: **z = [PREFIX; **x; y]

对于encoder-encoder模型: **z **= [PREFIX; x; PREFIX0’; y]

Pidx表示前缀索引的序列;|Pids|表示前缀的数量。

关于隐变量的定义,LM表示为GPT2,P关于参数的矩阵,维度为:|Pidx| × dim(hi):

p9bjROS.png

这里的φ是固定的,θ是要训练的参数。

直接优化Pθ问题:直接优化前缀对学习速率和初始化非常敏感

p9bxCNj.png

***Pθ与P’θ的行是相同的,但列不相同。训练完成后只有Pθ是保存的。

4. 实验与分析

4.1 数据集

E2E (Novikova et al., 2017): 一个领域,50K; WebNLG (Gardent et al., 2017):14个领域, 22K;and DART (Radev et al., 2020):开放领域

4.2 效果

p9qSAmT.png
只用0.1%的学习参数比tine-tune还要高。

少样本的情况:

p9qSzDK.png

Intrinsic(内在) Evaluation

prefix的长度分析

p9qpqZ8.png

Full vs Embedding-only

实验结果:discrete prompting *< *embedding-only ablation *< *prefifix-tuning.

Prefifixing vs Infifixing

. [x; INFIX; y] 比[PREFIX; x; y]这种模式稍差。

Initialization(初始值实验): 实验结果显示,用实验相关的词作为prefix会比用不相关的词性能会稍好。

5. 总结

有种做数学题采用辅助线的感觉,保留了原来的东西不变,加入一些内容,让问题更好解决。虽然本质不同,可是真的有点像的。

采用极少的参数去微调任务的适应性;

采用一种连接的方法去挖掘其中的知识,NLP新一代的训练范式已来,软件的新一代的开发模式已来,以后大模型是一种不可或缺的内容。

6. 参考文献

made by happyprince


http://www.ppmy.cn/news/104829.html

相关文章

中国人工智能学会主办!真实AIGC业务数据驱动,欢迎全球开发者参加

近期&#xff0c;由百度商业联合中国人工智能学会举办、NVIDIA提供战略支持&#xff0c;百度飞桨承办的“百度商业AI技术创新大赛”正式启动&#xff0c;启动会现场&#xff0c;中国工程院院士、中国人工智能学会理事长、清华大学信息科学技术学院院长戴琼海院士通过视频方式对…

Springboot整合Swagger2(3.0.0版本)

天行健&#xff0c;君子以自强不息&#xff1b;地势坤&#xff0c;君子以厚德载物。 每个人都有惰性&#xff0c;但不断学习是好好生活的根本&#xff0c;共勉&#xff01; 文章均为学习整理笔记&#xff0c;分享记录为主&#xff0c;如有错误请指正&#xff0c;共同学习进步。…

数据库读写锁

0、概要 1、谈⼀谈MySQL的读写锁 2、隔离级别与锁的关系 3、按照锁的粒度分数据库锁有哪些&#xff1f;锁机制与InnoDB锁算法 4、从锁的类别上分MySQL都有哪些锁呢&#xff1f;像上⾯那样⼦进⾏锁定岂不是有点阻碍并发效率了 5、MySQL中InnoDB引擎的⾏锁是怎么实现的&#xff1…

代码随想录算法训练营第三十九天 | 力扣 62.不同路径, 63. 不同路径 II

62.不同路径 题目 62. 不同路径 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为 “Start” &#xff09;。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角&#xff08;在下图中标记为 “Finish” &#xff09;。 问总共有多…

Effective STL_读书笔记

Effective STL 1. 容器条例01&#xff1a;慎重选择容器类型条例02&#xff1a;不要试图编写独立于容器类型的代码条例03&#xff1a;确保容器中对象的拷贝正确而高效条例04&#xff1a;调用empty而不是检查size()是否为空条例05&#xff1a;区间成员函数优先于与之对应的单元素…

python:绘制GAM非线性回归

作者&#xff1a;CSDN _养乐多_ 本文将介绍使用python语言绘制广义线性模型&#xff08;Generalized Additive Model&#xff0c;GAM&#xff09;非线性回归散点图和拟合曲线。并记录了计算RMSE、ubRMSE、R2、Bias的代码。 文章目录 一、GAM非线性回归详解二、代码三、计算RM…

[PyTorch][chapter 36][经典卷积神经网络-1 ]

前言&#xff1a; ILSVRC&#xff08;ImageNet Large Scale Visual Recognition Challenge&#xff09;是近年来机器视觉领域最受追捧也是最具权威的学术竞赛之一&#xff0c;代表了图像领域的最高水平。 ImageNet数据集是ILSVRC竞赛使用的是数据集&#xff0c;由斯坦福大学李…

qt树状结构

#include "mainwindow.h" #include <QApplication> #include <QTreeView> #include <QStandardItemModel> #include <QStringList> int main(int argc, char *argv[]) { QApplication a(argc, argv); // 创建一个标准项模型 QStandard…