ACL2023 | 黑盒大模型如何微调?清华Decoder Tuning方法提升大模型few-shot场景效果

news/2024/12/29 16:46:20/

一、概述

title:Decoder Tuning: Efficient Language Understanding as Decoding

论文地址:https://arxiv.org/abs/2212.08408

代码:GitHub - thunlp/DecT

二、Motivation

  1. 现在有很多模型只提供API,没法直接训练,并且是按请求次数计费的,成本也比较高。
  2. 之前大模型微调方法主要是冻结原始模型,在输入层进行tuning,但是该方法缺乏梯度信号,训练比较难,训练过程需要请求上千次api,带来的计算和时间成本都比较高。

三、方法

1 PipeLine of DecT

在黑盒模型的输出端进行tuning,提升其在下游任务的表现

pipeline解读:

  • 输入:构建人工temple,引入MASK,拼接原始文本作为输入,有点类似prompt design方法。
  • ProtoNet模型(本地知识):训练一个ProtoNet模型,其训练特征来自MASK对应的隐藏层的特征。
  • 模型带来的先验知识:直接拿原始PTM预测的label的分数。
  • 输出:将ProtoNet模型结果和PTM API的预测score(topk类别PLM模型预测结果)融合作为输出。

2 输入输出以及融合方法

  • Dec()为可训练的模型,sk为PLM预测的logit,l为融合权重

3 PLM原始模型权重标定方法

  • 原始PLM预测的结果高频词预测概率高,这里对其概率重新进行了标定。

4 ProtoNet模型选择原因

  • Prototypical方法在few-shot和prompt-based tuning方法效果比较好,所以选择该模型作为对mask特征进行tuiling的模型。

四、Conclusion

  1. 相当于在一个黑盒的PLMs情况下,只提供api接口,做了一个高效适配下游任务的方法(主要是分类任务)
  2. few-shot效果又快又好,比所有baseline都好,并且速度提升200倍

五、limitation

  1. 提供了一个黑盒PTMs的下游任务训练方法,但是当数据量扩大后,比fine-tuning方法效果还是差不少,特别是在一些比较难的任务上。
  2. 只在分类任务上做了尝试,没有测试自由形式的文本生成任务。

六、基础实验结果

1 实验baseline设置

  • prompt方法:是指使用模板包装的示例直接执行零样本分类。
  • 上下文学习(ICL):测试样本之前进一步连接了一些示例。
  • BBT(Sun等人,2022b)使用进化算法优化soft prompt方法。
  • BBTv2(Sun等人,2022a)进一步将深度提示插入中间层,以获得更好的性能。
  • RLPrompt(Deng等人,2022年)是另一种最新的算法,通过强化学习优化离散提示。
  • PromptBoosting(Hou等人,2022年)是一项应用boosting算法应用到prompt ensembling。
  • backbone:roberta-large

2 zero-shot和few-shot实验结果

  • 大部分zero-shot和few-shot效果都比之前的模型好,只有在MNLI数据集上,ICL的1-shot方法表现好一些,但是ICL由于输入长度限制,不可能输入非常多的样本。

3 与fine-tuning全量tuning对比

  • 在一些难的任务上,训练数据在256个的时候,就搞不过fine-tuning了

七、消融实验结果

1 Protonet模型参数的影响(1、4、6是啥意思?)

  • 发现s,r都有的时候,特别是1的时候,提升比较大。

2 选MLP还是ProtoNet作为模型呢?

  • ProtoNet在1-shot的时候,比MLP好的非常多,说明ProtoNet模型的few-shot能力还是比较强的

3 融合权重l的影响

  • 说明l=1的时候,效果最好?

4 不同模板Template的影响

  • 随便一个Template,DecT本文方法比Prompt方法都要高不少,说明本文方法的有效性。

http://www.ppmy.cn/news/118538.html

相关文章

【历史上的今天】12 月 6 日:微波炉问世;多媒体格式 Mkv 诞生;日立环球存储科技公司成立

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2021 年 12 月 6 日,在 1892 年的今天,世界著名电子电器之父西门子逝世。西门子(Siemens)是全球领先的科技企业&#xf…

微波炉加热原理

科普 微波炉的频率一般在2.45GHZ左右,也就是说,它产生的电磁波一秒钟就会转二十几亿圈,而食物中的水是极性分子。它的正负电荷中心并不重合,因此,在微波场的不断变化中,水和其他极性分子就会随之不断地转动…

机械好还是计算机,机械微波炉的优点?微波炉机械式好还是电脑式好?

机械微波炉是一种功能很不错的微波炉,它的功能设计优点很多,在厨房中是很常见的。它能够给人们提供非常方便和实用的帮助,那么,微波炉机械式好还是电脑式好?很多人心中都有这个疑问,下面小编就来解答一下这…

三星Galaxy S21 FE和三星Galaxy S21对比

三星Galaxy S21 FE采用了一块6.4英寸的Dynamic AMOLED 2X显示屏,分辨率为2400x1080。最高支持120赫兹高刷新率,并且可以在60赫兹和120赫兹两档之间自由切换,表面覆盖康宁大猩猩Victus玻璃。 三星Galaxy S21 FE更多使用感受和评价&#xff1a…

关于wifi和微波炉的一些知识

最近无线路由不稳定,经过几天摸索,发现一用微波炉就断网。经过研究,结果如下。 微波炉工作频率是2450MHz,正好和wifi频率冲突,那么为什么都会集中在2.4GHz这个频段上呢?因为根据无线通讯协定,只有使用这个频…

微波炉整流二极管 CL01-12

简 介: 在这里对微波炉高压整流二极管CL01-12的基本特性进行测量。通过测量它的正向导通电压,可以看需要9V以上才能够导通。通过敲碎它的环氧树脂封装,可以看清它的内部结构,这是一个由13层硅二极管堆叠形成的高压二极管。 关键词…

使用微波炉的十大忌讳

(2005-03-12 13:53:19) 一、忌超时加热:如果时间超过2小时,则应丢掉不要,以免引起食物中毒。 二、忌将普通塑料容器放入微波炉加热:一是热的食物会使容器变形,二是普通塑料会放出有毒物质。 三、忌将肉类加热至半熟…

点评三星Smart TV智能电视

这是三星在中国首次全面介绍智能电视及其应用界面,Smart TV配置了智能应用中心(Smart Hub) 它是三星推出的整合式电视节目界面,将网络内容、Apps应用程序、AllShare内容、传统电视频道列表等等所有电视机相关的节目内容整合到一个…