【论文笔记】基于预训练模型的持续学习（Continual Learning）（增量学习，Incremental Learning）

论文链接：Continual Learning with Pre-Trained Models: A Survey

代码链接：Github: LAMDA-PILOT

持续学习（Continual Learning, CL）旨在使模型在学习新知识的同时能够保留原来的知识信息了，然而现实任务中，模型并不能很好地保留原始信息，这也就是常说的灾害性遗忘（Catastrophic forgetting）问题。传统的CL方法需要从头开始训练模型（从随机初始化参数开始训练），目前基于大规模数据训练得到的预训练模型为持续学习带来了新的研究思路，预训练模型鲁棒的泛化性给予新任务学习较为成熟的参数，也因此基于预训练模型的CL方法已逐渐成为研究热点。

作者将基于预训练模型的CL方法分为三种：Prompt-based方法、representation-based方法和model mixed-based方法。

在这里插入图片描述

1. Prompt-based 方法

在使用模型全局tuning的方式适应下游任务时，预训练模型的泛化性能会被严重削弱，因此Prompt-based方法在保持预训练模型参数权重不变的条件下，增加额外可学习的Prompt tuning 模块来实现对下游任务的泛化，这样就能较好地保持原模型的泛化性能。

Vison Prompt Tuning（VPT）在feature patch中串联了一组可学习的参数P，然后使用最小化交叉熵损失的方式将特定任务的信息嵌入到预训练模型中。
在这里插入图片描述

VPT这种方式虽然可以较好地保留模型的泛化性，但是，在面对新的任务时，以往的Prompt模块的知识同样被覆盖，依旧遭遇了灾难性以往问题。为此，有学者提出了Prompt Pool的概念，设计了Prompt模块的集合，即P={P1,P2,…,Pm}(m表示该Pool的最大尺寸)。Prompt Pool的思想有效避免了单一Prompt的问题，但是Pool的设计使得其需要进行Prompt Selection操作，也就是需要将特定任务与其对应的Prompt模块进行索引匹配。

L2P算法是一种较为常用的Prompt selection算法，该算法设计了一种Key-Query的Prompt匹配方法，也就是为每一个Prompt提供一个可学习的索引键k，即P={(k1,P1),(k2,P2),…,(km,Pm)。L2P利用预训练模型将输入特征编码到Key对用的嵌入空间中，然后利用余弦距离损失函数在已有的Pool中搜索最近似的Key。接着，利用如交叉熵损失等方法对搜索到的Key对应的Prompt进行进行优化。
在这里插入图片描述

类似的Prompt Selection 算法很多，如DualPrompt算法，该算法将Prompt进行解耦，分化为General Prompt和Expert Prompt。General Prompt面向所有任务，为所有任务中共享信息，而Expert Prompt针对独立任务，数量与任务量一致。其采用了和L2P相同的key-query匹配策略。
在这里插入图片描述

Prompt Selection虽然可行，但仍是硬匹配，选项有限。基于注意力信息加权的Prompt Combination方法则有效缓解了该问题。如CODA-Prompt通过对Prompt Pool进行注意力机制嵌入，为每个注意力赋予自适应权重，进而求算全局Key-Query的加权和，实现可学习式Prompt组合。我觉得稀疏式注意力Prompt combination应该也是很有趣的研究。
在这里插入图片描述

从根本上来说Prompt Combination仍受制于Prompt Pool的范围。为此，许多学者则开展Prompt Generation有关的研究，如DAP，其利用MLP进行特定任务提示信息的编码生成。
在这里插入图片描述

优点：

Prompt 有助于弥合domain gap，并可有效地对特定任务的知识进行编码。
Prompt Design 属于lightweight模块，与input feature具有相同的维度，因此保存Prompt是parameter-efficient，适用于边缘场景。
Prompt Pool作为预训练模型的外部存储器，其支持自适应知识的检索和特定实例的预测。

缺点：

一些研究]发现L2P中的prompt selection过程收敛到一个单点，使得prompt selection只集中在特定子集上。
由于key和query在整个学习过程中不断变化，这些参数的更新将会消除先前任务的参数，导致matchimg-level和prompt-level的遗忘，使prompt selection成为CL的瓶颈。
固定大小的Prompt Pool会使得模型的表示能力受限。但是，若Prompt Pool随着数据的发展而增长，可能会为旧任务检索新的提示，导致训练和测试之间的不匹配。
最后，一些研究发现prompt-based CL的性能低于简单的representation-based的baseline性能。并且批量提示有损比较的公平性。

2. Representation-based 方法

representation-based方法直接利用预训练模型强大的泛化性和通用性来实现持续学习。比如Simple-CIL方法，该算法是ADAM算法原文中提出的Baseline，Simple-CIL冻结预训练模型参数，并通过求算类别中心的方式来构建Classifier。具体来说，在面对很多类别时，计算同类的embedding或features的平均值，并将该平均值作为该类别的标准（prototype），最后结合类别标准与余弦比较的方法替换模型的原始Classifier。

虽然基于prototype的方法存在一定的作用，但是并未很好地适应下游任务。为此，一些研究在基于prototype方法的基础上结合了外置参数高效调节模块或者外置适配器来使得预训练模型更加适应下游任务，如ADAM等。
在这里插入图片描述

ADAM等算法在进行类别标准设定时，类别标准之间的仍存在联系，导致任务效果降低。为此，RanPAC算法则采用online LDA classifier来去除原始方法prototype计算结果之间的相关性，加大类别间的分布差异。此外，RanPAC算法利用Random Projection layer将features映射到高维空间中，并在高维空间中进行prototype的计算，以使得特征分布符合高斯拟合。
在这里插入图片描述

相较于前面将预训练模型的通用语和适应性分离处理的方式，SLCA算法采用了差异学习率调整和特征经验重播的方式进行持续学习研究。该算法使用较小的learn rate调整模型主体部分，而使用较大的learn rate 调节模型的classifier，以实现模型的逐步微调和classifier的快速适应。为了避免忘记以前的分类器，SLCA还对分类特征分布进行建模，并重播它们以校准classifier。
在这里插入图片描述

优点：

由于class prototype代表了对应类别最常见的标准格式，因此利用其构建模型具有直观和可解释性。

Representation-based 方法主要是冻结backbone和更新classifier权重。lightweight的更新成本增加了其现实应用的可行性。

缺点：

将不同模型的特征连接起来形成class prototype，容易造成模型信息冗余。例如，不同的backbone中存在重复提取共享特征。

当下游任务涉及多个领域时，在第一阶段调整模型不足以弥合数据集之间的领域差距。在这种情况下，不断调整backbone可能更适合提取特定于任务的特征。

3. Model Mixture-based 方法

Model Mixture-based 方法在持续学习工程中构建了一组模型，然后再推理阶段通过Model Ensemble和Model Merge来进行信息综合决策。

Model Ensemble中，ESN算法凭借预训练模型强大的通用性，构建多个classifier，在面对新任务重新初始化和训练一个新的classifier。在推理时，采用投票策略来整合多个模型的结果进行最终决策。

由于Model Ensemble的核心因素取决于模型的方差，一些研究通过增强模型之间的多样性来替代使用相同的预训练模型构建不同的classifier。如PromptFusion利用预训练的ViT和CLIP，并在推理过程中动态地对logit进行组合，即f(x) = λ fvit (x) +(1−λ)fclip(x)。
在这里插入图片描述

与多个backbone的集成不同，PROOF采用了仅使用单个CLIP的更全面的推理方法。由于CLIP支持视觉和文本特征的跨模态匹配，因此PROOF设计了一个三层集成，考虑image-to-text、image-to-image prototype、image-to-adjusted text的跨模态融合。
在这里插入图片描述

Model Merge将多个不同的模型合并为一个统一的模型，无需要额外的训练。LAE定义了online和offline学习协议，online模型通过交叉熵损失进行更新，目的是在新的任务中获取新的知识。离线模型则通过Model Merge进行更新，例如指数移动平均(EMA): θ offline←α·θ offline +(1−α)·θ Online，其中α为权衡参数。LAE仅将EMA应用于参数高效调谐模块(如prompt)，其利用online和offline模型的最大logit进行推断。
在这里插入图片描述