MECD+: 视频推理中事件级因果图推理--VLM长视频因果推理

news/2025/1/23 23:32:50/

论文链接:https://arxiv.org/pdf/2501.07227v1

1. 摘要及主要贡献点

摘要:

视频因果推理旨在从因果角度对视频内容进行高层次的理解。然而,目前的研究存在局限性,主要表现为以问答范式执行,关注包含孤立事件和基本因果关系的简短视频片段,缺乏对包含多个相互关联事件视频的全面、结构化因果分析。为了填补这一空白,我们提出了一项新任务和数据集,即多事件因果发现 (MECD)。该任务旨在揭示分布在长时间视频中事件之间的因果关系。给定事件的视觉片段和文本描述,MECD 识别这些事件之间的因果关联,从而推导出一个全面且结构化的事件级视频因果图,解释结果事件为何以及如何发生。为了应对 MECD 的挑战,我们设计了一种受格兰杰因果关系方法启发的全新框架,该框架结合了一种高效的基于掩码的事件预测模型来执行事件格兰杰测试。该模型通过比较前提事件被掩码和未掩码时预测的结果事件来估计因果关系。此外,我们集成了前门调整和反事实推理等因果推理技术,以缓解 MECD 中因果混淆和虚幻因果关系等挑战。同时,我们引入了上下文链推理,以进行更稳健、更通用的推理。实验验证了我们框架在推理完整因果关系方面的有效性,其性能分别比 GPT-4o 和 VideoChat2 高出 5.77%2.70%。进一步的实验表明,因果关系图还可以促进视频问答和视频事件预测等下游视频理解任务。

主要贡献点:

  1. 提出新任务 MECD: 旨在发现长时间视频中事件之间的事件级因果关系,并构建完整的因果图。
  2. 构建新数据集 MECD+: 收集了包含多个事件和复杂因果关系的较长视频,并手动标注了事件对之间的真实因果关系。
  3. 开发新模型 VGCM (Video Granger Causality Model):
    • 核心思想: 基于事件格兰杰测试,通过比较在掩码和未掩码前提事件的情况下对结果事件的预测结果来推断因果关系。
    • 创新点:
      • 多模态处理: 同时处理视频片段和文本描述,最大化信息利用。
      • 因果推理技术: 集成前门调整和反事实推理,以解决因果混淆和虚幻因果关系问题。
        • 前门调整: 补偿或消除相邻桥接事件对因果关系的干扰。
        • 反事实推理: 使用存在性描述和思维链推理来缓解虚幻因果关系问题。
      • 上下文链推理: 在事件因果测试中同时考虑多个前提事件,增强模型对上下文事件的推理能力。
      • 非回归式完整图推理: 提出一种高效的方法,在推理阶段无需对每个事件进行重复掩码操作即可构建完整的因果图。
  4. 实验验证:
    • VGCM 在因果链和完整因果图推理任务中均达到最先进的性能,准确性为 71.28%,平均 SHD 为 3.94
    • 与现有模型相比,VGCM 在因果推理方面表现出色,例如:
      • 比性能最接近的模型在 SHD 上提高了 0.74,在准确性上提高了 2.70%
      • 比 GPT-4o 和 VideoChat2 分别高出 5.77%2.70%
    • 此外,VGCM 在视频问答和事件预测等下游任务中也表现出色。

2. 引入部分总结

视频因果推理 旨在从因果角度理解视频内容,这对于自动驾驶、活动识别、视频监控等应用至关重要。然而,现有视频因果推理任务主要基于问答范式,侧重于发现视频中单一因果关系,存在以下局限性:

  • 推理范围有限: 难以处理包含多个相互关联事件且因果关系复杂的视频场景。
  • 缺乏细粒度事件级推理: 无法深入分析事件之间的因果关系,导致对视频内容的理解不够深入。
  • 无法提供结构化的因果表示: 无法构建完整的因果图,难以全面解释视频中事件之间的关系。

为了解决这些问题,本文提出了一项新任务 多事件因果发现 (MECD),旨在发现长时间视频中事件之间的事件级因果关系,并构建完整的因果图。

3. 多事件因果发现任务 (MECD)

任务定义:

MECD 旨在确定给定视频中任何先前事件与最后一个事件之间是否存在因果关系。

  • 输入:
    • 视频 E \mathcal{E} E,包含按时间顺序排列的 N N N 个事件 E : = { e 1 , … , e N } \mathbb{E}:=\{e_{1},\dots,e_{N}\} E:={e1,,eN}
    • 每个事件 e n = { v n , c n } e_{n} = \{v_{n},c_{n}\} en={vn,cn} 包含一个视频片段 v n v_{n} vn 和相应的字幕 c n c_{n} cn
  • 输出:
    • 关系向量 r = [ r 1 , … , r N − 1 ] \pmb{r}=[r_{1},\dots,r_{N-1}] r=[r1,,rN1],其中 r k r_{k} rk 表示事件 e k e_{k} ek e N e_{N} eN 之间是否存在因果关系。
    • 该设置可推广到任意两个事件之间的因果关系,只需截取视频并将后者视为最后一个事件即可。

数据集构建:

  • 数据来源:
    • 重新组织了 ActivityNet Captions、EgoSchema 和 NExTVideo 数据集中的视频,这些视频包含多个事件和复杂的因果关系。
    • 从中选择了 1,438 个视频(5.6k 个事件)作为 MECD 数据集,其中 1,139 个用于训练,299 个用于测试。
  • 数据清洗:
    • 排除了缺乏因果关系的视频,例如描述多个非因果步骤的手工艺视频。
    • 筛选标准:超过 20% 的标注者认为视频几乎缺乏因果关系,则该视频将被排除。
  • 数据标注:
    • 属性: 持续时间、句子、时间戳和因果关系。
    • 标注过程:
      • 首先使用 GPT-4 API 对事件之间的关系进行初步标注。
      • 然后由五名人工标注者进行细化。
      • 通过交叉标注过程,最终的因果关系由大多数标注者的选择决定。
    • 附加属性: 为测试集引入“完整因果关系”属性,表示任意两个事件之间的所有因果关系,标注和细化方式与“因果关系”属性相同。
  • 数据统计:
    • MECD 数据集主要分析持续时间超过两分钟且包含五个或更多事件的中长视频。
    • 事件之间因果关系和非因果关系的比例大致平衡,且相邻事件之间存在因果关系的可能性更高。

图 1: MECD 任务示意图

4. 方法部分

4.1 视频格兰杰因果模型 (VGCM)

核心思想: 基于事件格兰杰测试,通过比较在掩码和未掩码前提事件的情况下对结果事件的预测结果来推断因果关系。

模型架构:

VGCM 是一种多模态 Transformer 结构,包含以下组件:

  • 视频编码器: 预训练于动作识别任务,用于提取视频片段的特征。
  • 字幕编码器: 用于提取字幕的特征。
  • 多模态解码器: 共享权重,用于融合视频和文本信息,并进行跨模态推理。
  • 关系头: 包含语义查询模块和自增强模块,用于推理事件之间的因果关系。
    • 语义查询模块: 使用交叉注意力机制将未掩码事件和结果事件的特征进行融合。
    • 自增强模块: 对融合后的特征进行自注意力计算,以增强特征表示。
  • 辅助相似性测量: 测量未掩码和掩码事件预测结果之间的相似性,作为关系头输出信息的补充。

图 2: VGCM 模型架构

工作流程:

  1. 数据预处理:
    • 将视频片段和字幕分别编码为特征向量。
    • 将未掩码事件集 E p \mathbb{E}^{p} Ep 和掩码事件集 E k m \mathbb{E}_{k}^{m} Ekm 分别输入到视频编码器和字幕编码器中。
  2. 多模态融合:
    • 将视频和文本特征输入到多模态解码器中,生成输出特征 O p O^{p} Op O k m O_{k}^{m} Okm
    • 解码器利用未掩码前提事件提供的上下文信息,对结果事件进行预测。
  3. 因果关系推理:
    • O p O^{p} Op 输入到字幕头进行监督事件预测。
    • O p O^{p} Op O k m O_{k}^{m} Okm 输入到关系头进行因果关系推理。
    • 将结果事件 e N e_{N} eN 编码为特征 F N {\pmb F}_{N} FN 和输出 O N {\cal O}_{N} ON,并将其聚合到关系头中以进行推理。
    • 通过交叉推理层 g r g_{r} gr 进行进一步交互,并测量 O p O^{p} Op O k m O_{k}^{m} Okm 之间的辅助相似性。
  4. 损失函数:
    • 重建损失: 包括字幕损失 L C \mathcal{L}_{C} LC 和视觉重建损失 L V {\mathcal{L}}_{V} LV,用于确保模型能够准确预测结果事件。
    • 因果关系损失 L R \mathcal{L}_{R} LR: 对输出关系 r ^ k \boldsymbol{{\hat{r}}_{k}} r^k 进行监督。
    • 语义相似性损失 L S \mathcal{L}_{S} LS: 确保在存在或不存在非因果前提事件的情况下,结果事件预测的语义相似性。
4.2 因果推理方法

因果混淆: 当某些中间事件被掩码时,原有的因果关系会受到影响。VGCM 通过以下方法解决:

  • 前门调整: 补偿缺失的因果效应,例如 e k − 1 e_{k-1} ek1 e N e_{N} eN 的因果效应。
  • 反事实推理: 消除冗余的因果效应,例如 e k + 1 e_{k+1} ek+1 e N e_{N} eN 的因果效应。

虚幻因果关系: 包括虚幻的时间因果关系和存在因果关系。VGCM 通过以下方法解决:

  • 思维链推理: 利用 GPT-4 API 提供的思维链 T c o t [ e k − 1 : e N ] T_{c o t[e_{k-1}:e_{N}]} Tcot[ek1:eN] 来引导模型进行逻辑推理,避免对时间相关性的注意力偏差。
  • 存在性描述: 使用 GPT-4 API 提取事件中的对象,并将其组织成句子 c k 0 c_{k}^{0} ck0,以缓解虚幻存在因果关系问题。

5. 实验部分

5.1 实验设置

模型实现细节:

  • 编码器: 基于 Videobert 构建,包含视频编码器、字幕编码器和多模态视频解码器。
  • 参数数量: 仅 144M,远小于 7B VideoLLMs。
  • 超参数设置: λ C , λ R , λ V , λ S \lambda_{C},\,\lambda_{R},\,\lambda_{V},\,\lambda_{\mathcal{S}} λC,λR,λV,λS 分别设置为 1.0, 4.0, 0.25, 0.05。
  • 输入长度限制: 字幕、思维链和存在性描述的最大输入长度均为 50。
  • 预训练: 在 ActivityNet 数据集上进行动作识别任务预训练,并使用 ActivityNet Captioning 数据集进行密集视频字幕任务预训练。

比较模型:

  • 基线模型: Videobert
  • 多模态基础模型: CLIP-L、SIGLIP、VAR
  • 大型语言模型 (LLM): Mixtral-8x22B-Instruct、GPT-4、Gemini-Pro 等
  • 图像 LLM 和视频 LLM: GPT4-o、GeminiPro、VideoLLaVA、VideoChat2 等

训练策略:

  • 少样本学习 (In-Context Learning): 对 LLM 和图像 LLM 进行评估。
  • 强微调: 对视频 LLM 和所有多模态基础模型进行评估。
5.2 主要评价指标
  • 因果链推理准确性: 评估模型对与结果事件相关的输出因果关系链的 top-1 准确性。
    • Neg: 模型预测不存在因果关系的准确性。
    • Pos: 模型预测存在因果关系的准确性。
  • 结构汉明距离 (SHD): 评估模型在因果推理方面的泛化能力。SHD 测量完整因果图之间的匹配程度,通过计算错误因果关系的数量之和来表示。较低的 SHD 值表示更好的性能。
5.3 主要实验结果

总体表现:

  • **VGCM 在因果链和因果图推理任务中均达到最先进的性能,准确性为 71.28%,平均 SHD 为 3.94
  • 与现有模型相比,VGCM 在因果推理方面表现出色,例如:
    • 比性能最接近的模型在 SHD 上提高了 0.74,在准确性上提高了 2.70%
    • 比 GPT-4o 和 VideoChat2 分别高出 5.77%2.70%

表 1: 主要结果

详细分析:

  • VGCM 的消融研究:
    • 因果推理方法: 前门调整和反事实干预均能提高模型的推理能力。
      • 前门调整缓解了时间虚幻因果关系问题。
      • 反事实干预与存在性描述相结合,使模型能够更关注因果关系而非简单的语义信息。
    • 上下文链推理: 增强了模型的整体因果推理能力,尽管对因果链发现的准确性没有显著提高。
    • 输入模态: 视觉信息对因果发现任务的影响更大,即使在 80% 的文本或视觉信息被掩码的情况下,VGCM 仍然能够很好地推断因果关系。

图 3: 输入模态实验

  • 视频 LLM 的性能:

    • 在上下文学习范式中,视频 LLM 的表现优于 LLM 和图像 LLM 的表现,这可能归因于其包含与 MECD 数据集因果方面相似的预训练数据。
    • 视频 LLM 的 Pos 和 Neg 指标之间的差距较小,这可能是由于幻觉的减少以及视觉信息的引入缓解了字幕模糊性的影响。
    • 在微调范式中,视频 LLM 的表现有所提高,但仍然低于 VGCM 的表现。
  • LLM 和图像 LLM 的性能:

    • 专有 LLM GPT-4 和 Gemini-Pro 在所有 LLM 中表现最佳,但仍然受到幻觉的影响,以及将主观情感与客观规律混为一谈。
    • 专有图像 LLM 和视频 LLM 的性能优于开源图像 LLM 和视频 LLM 的性能。
  • 人类的表现: 十名志愿者的平均表现达到 87.19%,其中视觉信息作为输入时表现更好。

表 2: 虚幻因果关系测试

  • 虚幻测试: LLM 和图像 LLM 在判断具有条件相关性或时间相关性事件之间的因果关系时表现不佳,而视频 LLM 和 VGCM 的表现则有所降低。

图 4: 虚幻测试可视化示例

5.4 下游任务评估
  • 视频问答 (VQA): 当用 VGCM 推理出的因果关系提示 MiniGPT4-video 时,其回答准确性提高了 9.04%
    • 表明 VGCM 能够为视频提供准确的因果感知,从而显著提高相关视频推理任务的性能。

图 5: 下游视频问答的可视化

  • 事件预测: 当用 VGCM 输出因果图提示 MiniGPT4-video 时,其事件预测准确性提高了 22.56%
    • 表明 VGCM 能够增强相关事件预测任务的性能。

图 6: 下游事件预测的可视化

6. 结论

本文提出了一项新任务 MECD,并构建了相应的数据集 MECD+,旨在促进视频中事件级因果图推理的发展。同时,本文提出了第一个视频因果发现模型 VGCM,该模型基于事件格兰杰测试,并集成了先进的因果推理技术,以解决虚幻和混淆因素等问题。实验结果表明,VGCM 在因果推理方面优于现有模型,展示了其卓越的推理能力。


http://www.ppmy.cn/news/1565611.html

相关文章

mysql数据被误删的恢复方案

文章目录 一、使用备份恢复二、使用二进制日志(Binary Log)三、使用InnoDB表空间恢复四、使用第三方工具预防措施 数据误删是一个严重的数据库管理问题,但通过合理的备份策略和使用适当的恢复工具,可以有效地减少数据丢失的风险…

Go channel关闭方法

channel关闭原则 1、不能在消费端关闭channel(基础原则,单生产者或多生产者均不能在消费端关闭); 2、多个生产者时,不能对channel执行关闭; 3、只有在唯一或最后唯一剩下的生产者协程中关闭channel&…

web前端第六次作业---制作网页页面

制作网页页面 代码: <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><s…

AR智慧点巡检系统探究和技术方案设计

一、项目背景 随着工业生产规模的不断扩大和设备复杂度的提升&#xff0c;传统的人工点巡检方式效率低下、易出错&#xff0c;难以满足现代化企业对设备运行可靠性和安全性的要求。AR&#xff08;增强现实&#xff09;技术的发展为点巡检工作带来了新的解决方案&#xff0c;通…

2025美赛倒计时,数学建模五类模型40+常用算法及算法手册汇总

数学建模美赛倒计时&#xff0c;对于第一次参加竞赛且没有相关基础知识的同学来讲&#xff0c;掌握数学建模常用经典的模型算法知识&#xff0c;并熟练使用相关软件进行建模是关键。本文将介绍一些常用的模型算法&#xff0c;以及软件操作教程。 数学建模常用模型包括&#xf…

5. 马科维茨资产组合模型+政策意图AI金融智能体(Qwen-Max)增强方案(理论+Python实战)

目录 0. 承前1. AI金融智能体1.1 What is AI金融智能体1.2 Why is AI金融智能体1.3 How to AI金融智能体 2. 数据要素&计算流程2.1 参数集设置2.2 数据获取&预处理2.3 收益率计算2.4 因子构建与预期收益率计算2.5 协方差矩阵计算2.6 投资组合优化2.7 持仓筛选2.8 AI金融…

深度学习实战:使用卷积神经网络(CNN)进行图像分类

在当今的机器学习领域&#xff0c;深度学习&#xff0c;尤其是卷积神经网络&#xff08;CNN&#xff09;&#xff0c;已经在图像分类、物体检测、自然语言处理等领域取得了巨大的成功。本文将通过一个实际的例子&#xff0c;展示如何使用TensorFlow和Keras库构建一个卷积神经网…

IOS 安全机制拦截 window.open

摘要 在ios环境&#xff0c;在某些情况下执行window.open不生效 一、window.open window.open(url, target, windowFeatures) 1. url&#xff1a;「可选参数」&#xff0c;表示你要加载的资源URL或路径&#xff0c;如果不传&#xff0c;则打开一个url地址为about:blank的空…