ICoT:交替模态思维链,提升VLMs推理能力

ops/2024/12/12 13:44:25/
引言
传统的链式思考(CoT)方法在大型语言模型(LLMs)中已经证明是有效的,它通过引导模型产生一系列中间的自然语言推理步骤来增强模型的推理能力。然而,当这种方法应用于VLMs时,仅使用文本理由难以精确表达与原始图像的细粒度关联。为了解决这个问题,论文提出了ICoT,它生成包含视觉和文本配对的顺序推理步骤,以推断最终答案。

©️【深蓝AI】编译

论文名称:Interleaved-Modal Chain-of-Thought

论文地址:https://arxiv.org/pdf/2411.19488

论文作者:J Gao, Y Li, Z Cao, W Li

编译:Sienna

1.ICoT方法

ICoT方法包括以下几个关键步骤:

  1. 交替模态链式思考(ICoT):ICoT要求VLMs生成包含视觉和文本配对的顺序推理步骤,以推断最终答案。这种方法需要VLMs能够生成细粒度的交替模态内容,这对于当前的VLMs来说是一个挑战。
  2. 注意力驱动选择(ADS):考虑到VLMs生成细粒度视觉信息的难度,ADS策略被提出来简化问题。ADS利用VLMs的注意力图来识别输入图像中的最优patch作为细粒度视觉理由,并将其插入到推理步骤中。

图 1:纯文字理由的多模态 CoT(左)与交替模态理由的多模态 CoT(右)之间的图示©️【深蓝AI】编译

交替模态链式思考(ICoT)

ICoT的核心在于生成交替模态的推理步骤,即在文本理由中穿插图像信息,以更精确地表达与原始图像的关联。这种方法模拟了人类的思考过程,因为它结合了视觉和语言信息来辅助推理。ICoT的推理步骤可以表示为:

其中,( r1, r2, ... ) 是文本理由,( x{v1}, x{v2}, ... ) 是从图像中提取的视觉理由。

注意力驱动选择(ADS)

ADS策略的核心在于从VLMs的注意力图中选择最优的视觉patch,以生成细粒度的视觉理由。这一过程不需要VLMs生成新的图像,而是直接从输入图像中选择相关区域。

图 2. ADS 选择细粒度视觉原理的工作流程。©️【深蓝AI】编译

2.实验设置

数据集选择

论文中使用了三个不同的基准数据集来评估ICoT方法的性能:

  1. M3CoT:这是一个多模态链式思考基准,专注于多领域、多步骤推理。M3CoT包含来自科学、数学和常识领域的267个类别,每个实例的问题相对复杂,需要依赖细粒度的视觉信息。
  2. ScienceQA:这是一个流行的数据集,用于评估VLMs的推理能力。它提供了一个通用的比较平台,用于比较ICoT和其他多模态CoT方法。
  3. LLaVA-W:这个数据集评估VLMs对视觉问题作出详细长形式回答的能力,也侧重于细粒度的视觉描述。

基线比较

论文中将ICoT与以下几种方法进行了比较:

  • No-CoT:直接响应输入图像和问题,不进行进一步的提示。
  • Multimodal CoT:引导VLMs生成一系列文本中间推理步骤,以推断最终输出。
  • CCoT:首先使用VLM生成场景图(SG),然后使用该SG作为提示来产生响应。
  • DDCoT:将输入问题分解为一系列基本子问题,然后应用VQA模型回答这些涉及视觉信息的子问题。
  • SCAFFOLD:在输入图像上叠加坐标矩阵,引导VLMs利用这些坐标来表示图像中的细粒度视觉信息。

3.结果分析

主要结果

在zero-shot设置中,ICoT在所有基线方法中表现最佳,包括直接生成(No-CoT)、CoT、CCoT、DDCoT和SCAFFOLD。ICoT与Multimodal CoT的主要区别在于推理步骤的模态,这展示了交替模态理由在推断最终答案中的优势。与其他多模态CoT方法相比,ICoT的性能提升进一步表明,交替模态理由在直觉和效果上比简单地插入场景图(CCoT)和分解子问题(DDCoT)更为合理。

在样本设置中,ICoT的性能提升表明,手动设计的细粒度ICoT示例可能引导VLMs以这种格式思考。此外,ICoT在LLaVA-W基准上取得了最大的相对性能提升,因为参考标签包含了来自图像的详细信息。这些与基线方法相比的显著性能提升证明了ADS选择的视觉token有效地捕获了图像的细粒度视觉信息,有助于生成高质量的文本理由。

表1:基于 Chameleon 和 Qwen2-VL 的 ICoT 和基线结果,最高分加粗。©️【深蓝AI】编译

消融研究

消融研究验证了ICoT的每个组成部分在三个基准上的有效性。当同时移除ADS和细粒度视觉信息(FVI)时,ICoT会退化为普通的多模态CoT。结果表明,ADS和FVI都是必要的。特别是,交替模态理由在生成高质量文本理由方面比纯文本理由有显著优势。当用普通示例替换ICoT示例时,性能下降证明了细粒度视觉信息在示例中有效地引导VLMs以这种形式进行思考。

表2:对 Chameleon-7B 进行的ICoT消融研究。©️【深蓝AI】编译

案例研究

通过三个案例研究,论文实证展示了ICoT相对于纯文本理由的优势,这些案例研究关注了纯文本理由中出现的三个典型问题:误解、过度泛化和幻觉。ICoT通过识别不同的对象并通过插入的视觉patch来引导VLM得出正确答案,而纯文本理由则可能因为误解或过度泛化而导致错误答案。

图3:对 ICoT 和多模态 CoT 进行案例研究,并只提供文字说明。©️【深蓝AI】编译

4.结论

ICoT的主要创新点包括:

  1. 交替模态理由:ICoT创新性地将文本理由转变为多模态理由,以构建更清晰的推理过程。
  2. 无需训练的即插即用策略:提出的ADS策略无需训练,可广泛应用于VLMs,无需支持多模态生成。

ICoT和ADS的提出,不仅在理论上具有创新性,而且在实际应用中也显示出了显著的性能提升。这种方法有望在未来的视觉-语言任务中发挥更大的作用。


http://www.ppmy.cn/ops/141253.html

相关文章

同步数据至ES时,数据丢失问题处理

问题背景: 数据同步到es过程中,发现数据丢失问题,原因正是因为写入索引前会先删除索引导致! 总体流程: 使用别名索引Eredis获取当前索引B(即E指向B),获取新索引A初始化新索引A,将数据存储到新…

uniapp 微信小程序webview 和 h5数据通信

项目是uniapp编写,因为是先开发了h5和app,小程序是突然要用的,做兼容开发已经来不及,由于微信小程序webview载入h5 因为通信必须要特殊限制(网页向小程序 postMessage 时,会在以下特定时机触发并收到消息&a…

【1】Python交叉编译到OpenHarmony标准系统运行(arm32位)

本文介绍如何Python语言如何在OpenHarmony标准系统运行,包括5.0r和4.1r以及4.0r,和未来版本的OpenHarmony版本上。 Python语言在OpenHarmony上使用,需要将Python解释器CPython移植到OpenHarmony标准系统。通过交叉编译的方式。 首先来了解几个概念: CPython 是 Python 编…

22.在Vue3中使用OpenLayers加载远程 KML 文件示例

前言 OpenLayers 是一个功能强大的开源地图库,广泛应用于前端 GIS(地理信息系统)开发中。 而 KML(Keyhole Markup Language)是一种用于表示地理空间数据的标准文件格式,通常用于存储点、线、多边形等地理要…

单片机:实现生日快乐歌(附带源码)

单片机实现《生日快乐歌》 实现一个“生日快乐歌”是单片机应用中的一个经典项目,通过它可以学习如何控制声音输出、使用定时器、以及如何处理按键输入等功能。本项目将利用单片机生成《生日快乐歌》的音频信号,并通过蜂鸣器播放出来。 项目目标 本项…

自然语言处理:从入门到精通全指引

一、引言 自然语言处理(NLP)作为人工智能领域的关键分支,旨在让计算机理解、生成和处理人类语言,近年来取得了令人瞩目的成就,在智能客服、机器翻译、文本分析、语音助手等众多领域发挥着重要作用。从入门到精通自然语…

java中的数组(3)

大家好,今天给大家继续讲解数组这部分内容,有助于大家对数组的理解更深,那么我们就来看看接下来的内容。 4.认识.null int[] array null;(代表这个引用不指向任何对系) System. out.println (array); array [0] 1; err. NulLPointer …

前端文件下载

这里写自定义目录标题 前端文件下载方法使用a标签使用iframe标签二进制流 前端文件下载方法 使用a标签 /*** 文件下载方法 使用a标签* 存在浏览器下载时,太快的话,会取消上次的下载请求* param {*} href* param {*} filename*/ export function downlo…