【论文阅读】OWKRL：2024年的视觉推理任务不用VLMs还可以怎么做

写在前面
1. 动机与贡献
- 1.1 动机
- 1.2 贡献
2. 开放世界知识表示学习方法（OWKRL）
- 2.1 问题定义
- 2.2 知识三元组表示获取
- - 2.2.1 基于图的 Self-cross Transformer
  - 2.2.2 头实体提取
  - 2.2.3 尾实体提取
  - 2.2.4 关系提取
- 2.3 知识表示学习
- 2.3.1 开放世界表示学习
- 2.3.2 知识三元组学习
3. 实验分析
- 3.1 模型预测效果
- 3.2 消融实验分析
- 3.3 其他实验分析

写在前面

文章标题：Knowledge is power: Open-world knowledge representation learning for knowledge-based visual reasoning
论文链接：【1】
代码链接：无
仅作个人学习记录用

1. 动机与贡献

1.1 动机

这篇文章提出了一种名为开放世界知识表示学习 (OWKRL) 的新型方法，用于解决基于知识的视觉推理任务中的两个主要问题：如何有效地表示和利用复杂的多模态知识，以及如何应对开放环境中遇到的新样本，具体来说：

（1） 如何在跨模态视觉推理场景中构建和利用复杂且隐含但必不可少的跨模态知识：现有的方法往往只使用或构建简单的显式知识图谱，缺乏复杂且隐含的跨模态知识，这限制了它们理解和推理的能力。

（2） 如何在增量学习未知样本并扩展模型自身时，拒绝训练过程中未出现的未见样本（现有的方法在遇到未见样本时通常无法处理，需要重新训练模型，这在现实应用中是不可行的）

1.2 贡献

（1） 提出了开放世界知识表示学习方法（OWKRL）：使用知识三元组（头实体-关系-尾实体）来表示复杂的多模态知识，克服了现有方法无法有效表示隐式知识的局限性。提出了一种基于图的自我交叉Transformer模型，能够深度融合视觉和语言信息，生成有效的表示。设计了一种新的开放世界学习范式，通过聚类和基于相似度的增量学习来识别和添加未知样本。

（2） 提出了知识三元组学习策略：包括特征聚类：通过聚类算法将具有相似特征的未知样本识别出来，并将其作为模型的示例；归纳学习：利用记忆中的示例和新样本之间的相似度，进一步发现新的未知样本；结构化表示约束：使用TransE损失来约束知识三元组的表示结构，使其更符合现实世界的知识关系；任务特定表示约束：使用带有负采样的交叉熵损失，将头实体和尾实体之间的语义差距最小化。

（3） 本文方法不仅提升了知识驱动的视觉推理任务的 SOTA ，而且还可以有效地应用于其他推理任务，例如科学问题回答和医学视觉问题回答。

2. 开放世界知识表示学习方法（OWKRL）

2.1 问题定义

本文将基于知识的视觉推理视为一个融入开放世界学习环境的知识图谱推理问题，具体如下:

开放世界的知识表示推理需要一个模型 $M^{time}$ ，其目标是在测试阶段找到一组缺失的知识三元组 $T^{time}_{test} = \{ ( h^{time},r^{time},?) | h^{time}, ?∈E^{time}_{test}，r^{time}∈R \}$ ，在时间点的训练阶段给定一个三元组集 $T^{time}_{train} = \{ ( h^{time},r^{time},?) | h^{time}, t^{time}∈E^{time}_{train}，r^{time}∈R \}$ ，其中 $E^{time}_{train}$ 和 $E^{time}_{test}$ 分别为实体的集合和超集； $R$ 是关系的集合；其中， $h^{time}$ 、 $r^{time}$ 和 $t^{time}$ 分别表示头实体、关系和尾实体。对于视觉推理而言， $h^{time}$ 表示给定图像及其问题的特征， $t^{time}$ 表示对应问题的答案。

2.2 知识三元组表示获取

OWKRL 通过知识三元组 (头实体-关系-尾实体) 来表示隐式的跨模态知识，并通过以下步骤获取知识三元组表示：

在这里插入图片描述

2.2.1 基于图的 Self-cross Transformer

（1）视觉和语言特征embedding: 在第一部分中，利用预训练的方法提取给定图像及其问题的特征。视觉特征类似于ViT，每个块通过预训练的ResNet - 50模型转化为一个特征向量。语言特征使用预训练的BERT模型。

原文此处：
在这里插入图片描述

即通过预训练模型得到的特征是2维的： $\mathbb{R}^{N^{\tau}\times d_{N^{\tau}} }, \tau\in\{V,L\}$ 。

（2）视觉和语言图建模: 为了捕获给定问题和图像中的单词/图像标记之间的关系，通过图投影来构建视觉/语言图。此外，使用图卷积来更新从这两个图中获得的节点表示。

其中，图投影是将特征投影到图中，其中 $N^{\tau}$ 也是节点的个数， $d_{N^{\tau}}$ 也是这些节点的特征维数。因此，全投影图本质上是一个轻量级的全连通图。为此，作者采用具有可学习权重的线性变换，即投影函数。如上图如所示，两个卷积层分别实现图投影和特征降维。

但是1x1的卷积核如何对二维矩阵进行特征降维？

我们知道，一般来说通过设置较少数量的1x1卷积核，可以减少输出特征图的通道数。每个1x1卷积核会对输入特征图的每个通道进行加权求和，然后将结果输出到一个单独的通道。如果输入特征图有C个通道，而1x1卷积核有C’个（C’ < C），那么输出特征图的通道数就会减少到C’（如下示意图）
在这里插入图片描述

并且原文描述如下：

在这里插入图片描述可以看到，参考文献中的特征降维方法也是是使用1x1的卷积核对3维特征进行降维，并没有改变前两个维度。如果通过预训练模型得到的特征如文章所说真的是2维的话，那么1x1卷积核只有一个的情况（相当于特征不变）、只有一个但是跳着卷积（即步长大于1，但这样对特征中的信息提取似乎没有好处）、有多个的情况（这样就不是“特征降维”了）显然都不太合适。所以我猜想这里有一个升维的操作。

无论如何，这样投影得到的每个节点的特征大概率是一个一维向量，所以经过图卷积之后输出的图embedding大概率就是二维的： $\mathscr{L}^V,\mathscr{L}^L$

（3）Self-cross多头注意力机制: Self-cross 多头注意力结构如下：
Self-cross 多头自注意力结构通过图建模的过程获得了两个图embedding $\mathscr{L}^V,\mathscr{L}^L$ 。作者希望通过单图表示的信息来改进单图表示，同时捕捉两个图表示之间的关系，并利用这种关系表示来增强单图表示。为此设计了一种具有堆叠层的级联多传感头结构；它是传统多传感头注意力机制的扩展，其中每个平行头部包含两种注意力：自注意力和交叉注意力。

自注意力模块中，作者将原始多传感头注意力机制中的缩放点积注意力操作替换为一个非局部注意力块（nonlocal attention block，参数矩阵替换为图中1x1 conv）作为自注意力层，其重点是通过自身的嵌入来改进图嵌入。这样又产生了和 （1） 中同样的问题（可能这里又升维了？）：
在这里插入图片描述
交叉注意力模块中，使用了非对称的非局部神经块（asymmetric nonlocal neural block）：

2.2.2 头实体提取

经过了注意力模块的信息交换，头实体提取用于融合视觉和语言特征嵌入。具体步骤如下：

图重投影：使用投影矩阵将图嵌入重新投影到空间特征。
门控聚合机制：利用门控机制设计聚合机制，从给定图像中提取与对应问题最相关的视觉特征。

2.2.3 尾实体提取

尾实体是根据从给定图像及其对应问题中提取的视觉和语言特征生成的答案。具体步骤如下：利用答案生成器预测输出答案。该任务被视为一个知识图谱补全问题。即两层MLP的head作为掩码语言模型通过词汇表输出答案𝐭。

2.2.4 关系提取

关系是通过输入 (图像和问题) 与输出 (预测答案) 之间的隐式关系来捕获的。因此，可以使用答案生成器来提取关系。使用 [CLS] 标记和两层的全连接网络将答案生成器的输出转换为关系向量表示。

2.3 知识表示学习

OWKRL 使用示例理论和基于示例的学习策略来实现开放世界学习。具体步骤如下：

2.3.1 开放世界表示学习

在这里插入图片描述

OWKRL 将已知样本视为示例，并设计一个特征聚类策略，通过 k-means 聚类找到与这些示例相关的新样本。每个聚类中的元素代表一个特征，每个颜色代表一个给定样本。具有高聚类分数且中心点与其他元素的平均余弦相似度较低的聚类被视为未知样本的集合，每个样本被视为一个示例。然后，模型根据新样本与之前样本的相似度来发现更多样本，并将这些发现样本用作未来迭代中的伪真实答案。

这里可能描述得不太清楚，按照我个人的理解：

Q：这里是把有标签的样本当成未知样本吗？
A：是的，这有助于模型更好地理解开放世界中的新事物和新情况；当遇到真正未知答案时，模型不会挑一个错误的答案，而是输出“未知答案”，提高模型鲁棒性。

Q：未知样本如何参与训练？
A：未知样本在每200个epoch之后按上述流程得出，以pseudoground-truth answers参与后续训练。整体训练结束后，未知样本送给“Oracle”打标签，变成有标签样本进行增量训练。

2.3.2 知识三元组学习

OWKRL 使用结构化表示约束和任务特定表示约束来学习知识三元组表示。具体步骤如下：

结构化表示约束：使用 TransE 损失函数通过对比正负三元组来保留嵌入结构。
任务特定表示约束：使用带有负采样的交叉熵损失函数，通过蒙特卡洛近似来桥接头实体和尾实体之间的语义差距。

总损失函数为两者加总。

3. 实验分析

UnisT文章中主要安排了如下实验：

3.1 模型预测效果

1. 实验设置:

数据集: 六个基准数据集上对所提出的方法进行了实验评估，包括The FVQA Dataset、The Text-KVQA Dataset、The OK-VQA Dataset、The A-OK-VQA Dataset、The KRVQA Dataset。
数据形式: Q&A pairs + 对应图片
开放世界学习设置：对6个实验数据集中所有类别的答案进行统计，从训练集中已知类别的答案子集中移除注释，并将其视为未知答案（以5 %的比例构造未知答案的拆分）

2. Comparison:
在这里插入图片描述

3. Qualitative analysis:
在这里插入图片描述

4. 用和图片不匹配的问题进行推理（证明能够识别出未知答案）:
在这里插入图片描述

评估模型在少样本学习任务中的性能，即在没有或只有少量训练数据的情况下，对新的时空数据集进行预测。结果表明，UniST 模型在少样本学习任务中仍然优于所有基线模型，并且相对于长期和短期预测，具有更大的相对改进。这表明 UniST 模型能够有效地从少量示例中学习，并泛化到新的数据集。

5. 零样本学习:
评估模型在零样本学习任务中的性能，即在没有训练数据的情况下，对新的时空数据集进行预测。结果表明，UniST 模型在零样本学习任务中表现出色，甚至优于许多在训练数据上进行微调的基线模型。这表明 UniST 模型能够有效地从先前学习到的知识中提取细粒度相似模式，并将其应用于新的数据集。

3.2 消融实验分析

1. 视觉图和语言图的效果:
在这里插入图片描述 2. Self-Cross Multihead Attention和知识三元组学习的效果:

在这里插入图片描述

3. 开放世界学习策略消融实验（让其他baseline也用开放世界学习方法进行训练） :
在这里插入图片描述
5. 未知答案比例消融:
根据答案类别的出现频率对其进行排序，并定期采样一个类别子集进行移除来模拟未知答案。然后，我们构造了四个不同的split，其中包含不同数量的未知答案( 5 %、10 %、15 %、20 %)。可以看出，当未知样本与所有样本的比例设置为5%时，模型具有最佳的性能。
在这里插入图片描述

掩码策略：
评估删除每种掩码策略对 UniST 性能的影响。分析每种掩码策略对不同时空任务（预测、插值、空间外推）的贡献，并解释其选择理由。
知识引导提示：
评估删除四种时空属性对 UniST 性能的影响。分析每种属性对模型性能的贡献，并解释其必要性。

3.3 其他实验分析

1. 科学问答效果:
（1）科学问答任务：数据集是Science QA ，包含21208张图像和来自自然科学、社会科学和语言科学的问答对。
在这里插入图片描述
（2）医学视觉问答任务：数据集是Med - VQA - 2021数据集，包含5500张医学图像及其5500个QA对。

2. 迁移学习能力:
A→B意味着在数据集A上预训练本文提出的方法，并在数据集B上以端到端的方式训练模型
3. zero-shot/few-shot能力:
在这里插入图片描述