MECD+: 视频推理中事件级因果图推理--VLM长视频因果推理

论文链接：https://arxiv.org/pdf/2501.07227v1

1. 摘要及主要贡献点

摘要：

视频因果推理旨在从因果角度对视频内容进行高层次的理解。然而，目前的研究存在局限性，主要表现为以问答范式执行，关注包含孤立事件和基本因果关系的简短视频片段，缺乏对包含多个相互关联事件视频的全面、结构化因果分析。为了填补这一空白，我们提出了一项新任务和数据集，即多事件因果发现 (MECD)。该任务旨在揭示分布在长时间视频中事件之间的因果关系。给定事件的视觉片段和文本描述，MECD 识别这些事件之间的因果关联，从而推导出一个全面且结构化的事件级视频因果图，解释结果事件为何以及如何发生。为了应对 MECD 的挑战，我们设计了一种受格兰杰因果关系方法启发的全新框架，该框架结合了一种高效的基于掩码的事件预测模型来执行事件格兰杰测试。该模型通过比较前提事件被掩码和未掩码时预测的结果事件来估计因果关系。此外，我们集成了前门调整和反事实推理等因果推理技术，以缓解 MECD 中因果混淆和虚幻因果关系等挑战。同时，我们引入了上下文链推理，以进行更稳健、更通用的推理。实验验证了我们框架在推理完整因果关系方面的有效性，其性能分别比 GPT-4o 和 VideoChat2 高出 5.77% 和 2.70%。进一步的实验表明，因果关系图还可以促进视频问答和视频事件预测等下游视频理解任务。

主要贡献点：

提出新任务 MECD: 旨在发现长时间视频中事件之间的事件级因果关系，并构建完整的因果图。
构建新数据集 MECD+: 收集了包含多个事件和复杂因果关系的较长视频，并手动标注了事件对之间的真实因果关系。
开发新模型 VGCM (Video Granger Causality Model):
- 核心思想: 基于事件格兰杰测试，通过比较在掩码和未掩码前提事件的情况下对结果事件的预测结果来推断因果关系。
- 创新点:
  - 多模态处理: 同时处理视频片段和文本描述，最大化信息利用。
  - 因果推理技术: 集成前门调整和反事实推理，以解决因果混淆和虚幻因果关系问题。
    - 前门调整: 补偿或消除相邻桥接事件对因果关系的干扰。
    - 反事实推理: 使用存在性描述和思维链推理来缓解虚幻因果关系问题。
  - 上下文链推理: 在事件因果测试中同时考虑多个前提事件，增强模型对上下文事件的推理能力。
  - 非回归式完整图推理: 提出一种高效的方法，在推理阶段无需对每个事件进行重复掩码操作即可构建完整的因果图。
实验验证:
- VGCM 在因果链和完整因果图推理任务中均达到最先进的性能，准确性为 71.28%，平均 SHD 为 3.94。
- 与现有模型相比，VGCM 在因果推理方面表现出色，例如：
  - 比性能最接近的模型在 SHD 上提高了 0.74，在准确性上提高了 2.70%。
  - 比 GPT-4o 和 VideoChat2 分别高出 5.77% 和 2.70%。
- 此外，VGCM 在视频问答和事件预测等下游任务中也表现出色。

2. 引入部分总结

视频因果推理 旨在从因果角度理解视频内容，这对于自动驾驶、活动识别、视频监控等应用至关重要。然而，现有视频因果推理任务主要基于问答范式，侧重于发现视频中单一因果关系，存在以下局限性：

推理范围有限: 难以处理包含多个相互关联事件且因果关系复杂的视频场景。
缺乏细粒度事件级推理: 无法深入分析事件之间的因果关系，导致对视频内容的理解不够深入。
无法提供结构化的因果表示: 无法构建完整的因果图，难以全面解释视频中事件之间的关系。

为了解决这些问题，本文提出了一项新任务 多事件因果发现 (MECD)，旨在发现长时间视频中事件之间的事件级因果关系，并构建完整的因果图。

3. 多事件因果发现任务 (MECD)

任务定义:

MECD 旨在确定给定视频中任何先前事件与最后一个事件之间是否存在因果关系。

输入:
- 视频 $\mathcal{E}$ ，包含按时间顺序排列的 $N$ 个事件 $\mathbb{E}:=\{e_{1},\dots,e_{N}\}$ 。
- 每个事件 $e_{n} = \{v_{n},c_{n}\}$ 包含一个视频片段 $v_{n}$ 和相应的字幕 $c_{n}$ 。
输出:
- 关系向量 $\pmb{r}=[r_{1},\dots,r_{N-1}]$ ，其中 $r_{k}$ 表示事件 $e_{k}$ 与 $e_{N}$ 之间是否存在因果关系。
- 该设置可推广到任意两个事件之间的因果关系，只需截取视频并将后者视为最后一个事件即可。

数据集构建:

数据来源:
- 重新组织了 ActivityNet Captions、EgoSchema 和 NExTVideo 数据集中的视频，这些视频包含多个事件和复杂的因果关系。
- 从中选择了 1,438 个视频（5.6k 个事件）作为 MECD 数据集，其中 1,139 个用于训练，299 个用于测试。
数据清洗:
- 排除了缺乏因果关系的视频，例如描述多个非因果步骤的手工艺视频。
- 筛选标准：超过 20% 的标注者认为视频几乎缺乏因果关系，则该视频将被排除。
数据标注:
- 属性: 持续时间、句子、时间戳和因果关系。
- 标注过程:
  - 首先使用 GPT-4 API 对事件之间的关系进行初步标注。
  - 然后由五名人工标注者进行细化。
  - 通过交叉标注过程，最终的因果关系由大多数标注者的选择决定。
- 附加属性: 为测试集引入“完整因果关系”属性，表示任意两个事件之间的所有因果关系，标注和细化方式与“因果关系”属性相同。
数据统计:
- MECD 数据集主要分析持续时间超过两分钟且包含五个或更多事件的中长视频。
- 事件之间因果关系和非因果关系的比例大致平衡，且相邻事件之间存在因果关系的可能性更高。

图 1: MECD 任务示意图

4. 方法部分

4.1 视频格兰杰因果模型 (VGCM)

核心思想: 基于事件格兰杰测试，通过比较在掩码和未掩码前提事件的情况下对结果事件的预测结果来推断因果关系。

模型架构:

VGCM 是一种多模态 Transformer 结构，包含以下组件：

视频编码器: 预训练于动作识别任务，用于提取视频片段的特征。
字幕编码器: 用于提取字幕的特征。
多模态解码器: 共享权重，用于融合视频和文本信息，并进行跨模态推理。
关系头: 包含语义查询模块和自增强模块，用于推理事件之间的因果关系。
- 语义查询模块: 使用交叉注意力机制将未掩码事件和结果事件的特征进行融合。
- 自增强模块: 对融合后的特征进行自注意力计算，以增强特征表示。
辅助相似性测量: 测量未掩码和掩码事件预测结果之间的相似性，作为关系头输出信息的补充。

图 2: VGCM 模型架构

工作流程:

数据预处理:
- 将视频片段和字幕分别编码为特征向量。
- 将未掩码事件集 $\mathbb{E}^{p}$ 和掩码事件集 $\mathbb{E}_{k}^{m}$ 分别输入到视频编码器和字幕编码器中。
多模态融合:
- 将视频和文本特征输入到多模态解码器中，生成输出特征 $O^{p}$ 和 $O_{k}^{m}$ 。
- 解码器利用未掩码前提事件提供的上下文信息，对结果事件进行预测。
因果关系推理:
- 将 $O^{p}$ 输入到字幕头进行监督事件预测。
- 将 $O^{p}$ 和 $O_{k}^{m}$ 输入到关系头进行因果关系推理。
- 将结果事件 $e_{N}$ 编码为特征 $FN {\pmb F}_{N}$ 和输出 ${\cal O}_{N}$ ，并将其聚合到关系头中以进行推理。
- 通过交叉推理层 $g_{r}$ 进行进一步交互，并测量 $O^{p}$ 和 $O_{k}^{m}$ 之间的辅助相似性。
损失函数:
- 重建损失: 包括字幕损失 $\mathcal{L}_{C}$ 和视觉重建损失 ${\mathcal{L}}_{V}$ ，用于确保模型能够准确预测结果事件。
- 因果关系损失 $\mathcal{L}_{R}$ : 对输出关系 $\boldsymbol{{\hat{r}}_{k}}$ 进行监督。
- 语义相似性损失 $\mathcal{L}_{S}$ : 确保在存在或不存在非因果前提事件的情况下，结果事件预测的语义相似性。

4.2 因果推理方法

因果混淆: 当某些中间事件被掩码时，原有的因果关系会受到影响。VGCM 通过以下方法解决：

前门调整: 补偿缺失的因果效应，例如 $e_{k-1}$ 对 $e_{N}$ 的因果效应。
反事实推理: 消除冗余的因果效应，例如 $e_{k+1}$ 对 $e_{N}$ 的因果效应。

虚幻因果关系: 包括虚幻的时间因果关系和存在因果关系。VGCM 通过以下方法解决：

思维链推理: 利用 GPT-4 API 提供的思维链 $T_{c o t[e_{k-1}:e_{N}]}$ 来引导模型进行逻辑推理，避免对时间相关性的注意力偏差。
存在性描述: 使用 GPT-4 API 提取事件中的对象，并将其组织成句子 $c_{k}^{0}$ ，以缓解虚幻存在因果关系问题。

5. 实验部分

5.1 实验设置

模型实现细节:

编码器: 基于 Videobert 构建，包含视频编码器、字幕编码器和多模态视频解码器。
参数数量: 仅 144M，远小于 7B VideoLLMs。
超参数设置: $\lambda_{C},\,\lambda_{R},\,\lambda_{V},\,\lambda_{\mathcal{S}}$ 分别设置为 1.0, 4.0, 0.25, 0.05。
输入长度限制: 字幕、思维链和存在性描述的最大输入长度均为 50。
预训练: 在 ActivityNet 数据集上进行动作识别任务预训练，并使用 ActivityNet Captioning 数据集进行密集视频字幕任务预训练。

比较模型:

基线模型: Videobert
多模态基础模型: CLIP-L、SIGLIP、VAR
大型语言模型 (LLM): Mixtral-8x22B-Instruct、GPT-4、Gemini-Pro 等
图像 LLM 和视频 LLM: GPT4-o、GeminiPro、VideoLLaVA、VideoChat2 等

训练策略:

少样本学习 (In-Context Learning): 对 LLM 和图像 LLM 进行评估。
强微调: 对视频 LLM 和所有多模态基础模型进行评估。

5.2 主要评价指标

因果链推理准确性: 评估模型对与结果事件相关的输出因果关系链的 top-1 准确性。
- Neg: 模型预测不存在因果关系的准确性。
- Pos: 模型预测存在因果关系的准确性。
结构汉明距离 (SHD): 评估模型在因果推理方面的泛化能力。SHD 测量完整因果图之间的匹配程度，通过计算错误因果关系的数量之和来表示。较低的 SHD 值表示更好的性能。

5.3 主要实验结果

总体表现:

**VGCM 在因果链和因果图推理任务中均达到最先进的性能，准确性为 71.28%，平均 SHD 为 3.94。
与现有模型相比，VGCM 在因果推理方面表现出色，例如：
- 比性能最接近的模型在 SHD 上提高了 0.74，在准确性上提高了 2.70%。
- 比 GPT-4o 和 VideoChat2 分别高出 5.77% 和 2.70%。

表 1: 主要结果

详细分析:

VGCM 的消融研究:
- 因果推理方法: 前门调整和反事实干预均能提高模型的推理能力。
  - 前门调整缓解了时间虚幻因果关系问题。
  - 反事实干预与存在性描述相结合，使模型能够更关注因果关系而非简单的语义信息。
- 上下文链推理: 增强了模型的整体因果推理能力，尽管对因果链发现的准确性没有显著提高。
- 输入模态: 视觉信息对因果发现任务的影响更大，即使在 80% 的文本或视觉信息被掩码的情况下，VGCM 仍然能够很好地推断因果关系。

图 3: 输入模态实验

视频 LLM 的性能:
- 在上下文学习范式中，视频 LLM 的表现优于 LLM 和图像 LLM 的表现，这可能归因于其包含与 MECD 数据集因果方面相似的预训练数据。
- 视频 LLM 的 Pos 和 Neg 指标之间的差距较小，这可能是由于幻觉的减少以及视觉信息的引入缓解了字幕模糊性的影响。
- 在微调范式中，视频 LLM 的表现有所提高，但仍然低于 VGCM 的表现。
LLM 和图像 LLM 的性能:
- 专有 LLM GPT-4 和 Gemini-Pro 在所有 LLM 中表现最佳，但仍然受到幻觉的影响，以及将主观情感与客观规律混为一谈。
- 专有图像 LLM 和视频 LLM 的性能优于开源图像 LLM 和视频 LLM 的性能。
人类的表现: 十名志愿者的平均表现达到 87.19%，其中视觉信息作为输入时表现更好。

表 2: 虚幻因果关系测试

虚幻测试: LLM 和图像 LLM 在判断具有条件相关性或时间相关性事件之间的因果关系时表现不佳，而视频 LLM 和 VGCM 的表现则有所降低。

图 4: 虚幻测试可视化示例

5.4 下游任务评估

视频问答 (VQA): 当用 VGCM 推理出的因果关系提示 MiniGPT4-video 时，其回答准确性提高了 9.04%。
- 表明 VGCM 能够为视频提供准确的因果感知，从而显著提高相关视频推理任务的性能。

图 5: 下游视频问答的可视化

事件预测: 当用 VGCM 输出因果图提示 MiniGPT4-video 时，其事件预测准确性提高了 22.56%。
- 表明 VGCM 能够增强相关事件预测任务的性能。

图 6: 下游事件预测的可视化

6. 结论

本文提出了一项新任务 MECD，并构建了相应的数据集 MECD+，旨在促进视频中事件级因果图推理的发展。同时，本文提出了第一个视频因果发现模型 VGCM，该模型基于事件格兰杰测试，并集成了先进的因果推理技术，以解决虚幻和混淆因素等问题。实验结果表明，VGCM 在因果推理方面优于现有模型，展示了其卓越的推理能力。