ICoT：交替模态思维链，提升VLMs推理能力

引言

传统的链式思考（CoT）方法在大型语言模型（LLMs）中已经证明是有效的，它通过引导模型产生一系列中间的自然语言推理步骤来增强模型的推理能力。然而，当这种方法应用于VLMs时，仅使用文本理由难以精确表达与原始图像的细粒度关联。为了解决这个问题，论文提出了ICoT，它生成包含视觉和文本配对的顺序推理步骤，以推断最终答案。

©️【深蓝AI】编译

论文名称：Interleaved-Modal Chain-of-Thought

论文地址：https://arxiv.org/pdf/2411.19488

论文作者：J Gao, Y Li, Z Cao, W Li

编译：Sienna

1.ICoT方法

ICoT方法包括以下几个关键步骤：

交替模态链式思考（ICoT）：ICoT要求VLMs生成包含视觉和文本配对的顺序推理步骤，以推断最终答案。这种方法需要VLMs能够生成细粒度的交替模态内容，这对于当前的VLMs来说是一个挑战。
注意力驱动选择（ADS）：考虑到VLMs生成细粒度视觉信息的难度，ADS策略被提出来简化问题。ADS利用VLMs的注意力图来识别输入图像中的最优patch作为细粒度视觉理由，并将其插入到推理步骤中。

图 1：纯文字理由的多模态 CoT（左）与交替模态理由的多模态 CoT（右）之间的图示©️【深蓝AI】编译

交替模态链式思考（ICoT）

ICoT的核心在于生成交替模态的推理步骤，即在文本理由中穿插图像信息，以更精确地表达与原始图像的关联。这种方法模拟了人类的思考过程，因为它结合了视觉和语言信息来辅助推理。ICoT的推理步骤可以表示为：

其中，( r1, r2, ... ) 是文本理由，( x{v1}, x{v2}, ... ) 是从图像中提取的视觉理由。

注意力驱动选择（ADS）

ADS策略的核心在于从VLMs的注意力图中选择最优的视觉patch，以生成细粒度的视觉理由。这一过程不需要VLMs生成新的图像，而是直接从输入图像中选择相关区域。

图 2. ADS 选择细粒度视觉原理的工作流程。©️【深蓝AI】编译

2.实验设置

数据集选择

论文中使用了三个不同的基准数据集来评估ICoT方法的性能：

M3CoT：这是一个多模态链式思考基准，专注于多领域、多步骤推理。M3CoT包含来自科学、数学和常识领域的267个类别，每个实例的问题相对复杂，需要依赖细粒度的视觉信息。
ScienceQA：这是一个流行的数据集，用于评估VLMs的推理能力。它提供了一个通用的比较平台，用于比较ICoT和其他多模态CoT方法。
LLaVA-W：这个数据集评估VLMs对视觉问题作出详细长形式回答的能力，也侧重于细粒度的视觉描述。

基线比较

论文中将ICoT与以下几种方法进行了比较：

No-CoT：直接响应输入图像和问题，不进行进一步的提示。
Multimodal CoT：引导VLMs生成一系列文本中间推理步骤，以推断最终输出。
CCoT：首先使用VLM生成场景图（SG），然后使用该SG作为提示来产生响应。
DDCoT：将输入问题分解为一系列基本子问题，然后应用VQA模型回答这些涉及视觉信息的子问题。
SCAFFOLD：在输入图像上叠加坐标矩阵，引导VLMs利用这些坐标来表示图像中的细粒度视觉信息。

3.结果分析

主要结果

在zero-shot设置中，ICoT在所有基线方法中表现最佳，包括直接生成（No-CoT）、CoT、CCoT、DDCoT和SCAFFOLD。ICoT与Multimodal CoT的主要区别在于推理步骤的模态，这展示了交替模态理由在推断最终答案中的优势。与其他多模态CoT方法相比，ICoT的性能提升进一步表明，交替模态理由在直觉和效果上比简单地插入场景图（CCoT）和分解子问题（DDCoT）更为合理。

在样本设置中，ICoT的性能提升表明，手动设计的细粒度ICoT示例可能引导VLMs以这种格式思考。此外，ICoT在LLaVA-W基准上取得了最大的相对性能提升，因为参考标签包含了来自图像的详细信息。这些与基线方法相比的显著性能提升证明了ADS选择的视觉token有效地捕获了图像的细粒度视觉信息，有助于生成高质量的文本理由。

消融研究

消融研究验证了ICoT的每个组成部分在三个基准上的有效性。当同时移除ADS和细粒度视觉信息（FVI）时，ICoT会退化为普通的多模态CoT。结果表明，ADS和FVI都是必要的。特别是，交替模态理由在生成高质量文本理由方面比纯文本理由有显著优势。当用普通示例替换ICoT示例时，性能下降证明了细粒度视觉信息在示例中有效地引导VLMs以这种形式进行思考。