CLIP-MMA: Multi-Modal Adapter for Vision-Language Models

news/2024/12/2 8:18:24/

当前的问题

CLIP-Adapter仅单独调整图像和文本嵌入，忽略了不同模态之间的交互作用。此外，适应性参数容易过拟合训练数据，导致新任务泛化能力的损失。

动机

图1所示。多模态适配器说明。

通过一种基于注意力的 Adapter ，作者称之为多模态 Adapter （图1），通过整合它们的信息，共同调整文本和图像特征，导致更全面的适配。此外，适配是针对特定任务的，有效地利用每个任务的视觉和文本信息。这使得模型能够更有效地避免在训练任务上过拟合，从而在未见过的任务上获得更好的泛化能力。

方法

多模态 Adapter 包括三个不同的部分：一个嵌入降采样器、一个 Mask 多头注意力网络以及两个带有非线性激活函数的线性层。

维度下采样

在 Adapter 中使用了多头注意力层来聚合多模态信息。然而，多头注意力层可能会给网络引入参数昂贵的操作，尤其是当嵌入维度较大时，例如，原始CLIP的嵌入维度 $(\text{C}_{\text{Emb}})=512$ 。为了降低可训练参数的数量，作者在注意力层之前在CLIP嵌入上引入了一个维度下采样器。下采样器由一个线性层 $D(\cdot)$ 组成，该层降低嵌入维度。最后，多头注意力层的输入通过 $D(\cdot)$ 传递，其中 $W_D\in \mathbb{R}^{\text{C}_{\text{Emb}}\times \text{C}_{\text{Emb}}/4}$ 。

每个图像样本创建多头注意 $(\text{MHA}(\cdot))$ 输入。提示符 ${Emb}_{\text{text}}$ 的文本嵌入和视觉输入 $\text{Emb}_{\text{image}}$ 的图像嵌入被连接成一个序列：

其中 $\text{Input}_{\text{MHA}}\in \mathbb{R}^{(N^{classes}+1)\times N^{Batch}\times E_N}$ 。其中， $N^{classes}+1$ 表示类（文本嵌入）和一个图像嵌入的数量之和（图2）， $E_N$ 表示嵌入的维数。

图2所示。 $\text{Input}_{\text{MHA}}$ 的插图。文本表示与视觉表示串联成一个序列，通过掩模多头注意网络传递。

Mask 多头注意力

在维度下采样后，通过多头注意力层聚合潜在表示。为了区分多头注意力层的文本和图像输入，使用注意力 Mask 来调整每个模态内的信息交互。**使用“0”表示正向交互，“-∞”表示负向交互。**因此，**每个文本嵌入仅由相应的图像信息调整，而部分忽略其他文本嵌入中的信息。图像嵌入也是如此。**给定 $P$ 个 Prompt 和 $I$ 个图像， $T = P + I$ 总元素数。
、

me：图示如下

其中， $i$ 表示行（取值范围为 $0\sim T-1$ ）， $j$ 表示列（取值范围为 $0\sim T-1$ ）。

掩码计算完成后，通过求和运算将掩码应用到多头注意力网络中：

多模态 Adapter

随后，MHA的输出经过两个线性上采样层 $U_1(\cdot),U_2(\cdot)$ ，其间使用GELU，其中 $W_{U1}\in \mathbb{R}^{\text{C}_{\text{Emb}/4}\times \text{C}_{\text{Emb}}/16},W_{U2}\in \mathbb{R}^{\text{C}_{\text{Emb}}/16 \times \text{C}_{\text{Emb}}}$