【论文笔记】LLaVA-o1: Let Vision Language Models Reason Step-by-Step

ops/2024/11/28 15:49:53/

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: LLaVA-o1: Let Vision Language Models Reason Step-by-Step
作者: Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan
arXiv: https://arxiv.org/abs/2411.10440

基本信息

摘要

大型语言模型在推理能力方面取得了显著进步,尤其是在推理时间扩展方面,如OpenAI的o1模型所示。

然而,当前的视觉-语言模型(VLMs)在执行系统化和结构化推理方面往往存在困难,尤其是在处理复杂的视觉问答任务时。

在本研究中,我们引入了LLaVA-o1,这是一种新型的VLM,旨在进行自主的多阶段推理。与思维链提示不同,LLaVA-o1独立进行总结、视觉解释、逻辑推理和结论生成的连续阶段。

这种结构化方法使LLaVA-o1在推理密集型任务上的精度得到了显著提高。

为了实现这一点,我们编译了LLaVA-o1-100k数据集,整合了来自各种视觉问答来源的样本,并提供了结构化推理注释。

此外,我们提出了一种推理时间阶段级束搜索方法,它能够有效地进行推理时间扩展。

值得注意的是,仅使用10万个训练样本和简单而有效的推理时间扩展方法,LLaVA-o1不仅在广泛的跨模态推理基准测试中比其基础模型提高了8.9%,而且甚至超过了更大甚至闭源模型,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct的性能。

Performance of LLaVA-o1 and other models across six multimodal reasoning benchmarks

主要贡献

  • 我们引入了LLaVA-o1,这是一种专为系统推理设计的视觉语言模型,在需要结构化思考和推理的任务上表现出色。
  • 我们证明,使用阶段级束搜索的LLaVA-o1在推理时间上是可扩展的。这意味着随着计算资源的增加,我们方法的表现可以进一步提升,使其适用于更复杂任务和场景。
  • 在各种基准测试上的大量实验表明,与更大和闭源模型相比,我们的方法实现了更优越的性能,凸显了LLaVA-o1在多模态推理中的有效性。

方法

我们的LLaVA-o1促进了一种逐步推理的过程,增强了视觉-语言模型(VLMs)的推理能力,并允许有效地进行推理时间缩放。

通过结构化思维,LLaVA-o1实现了系统而高效的推理过程。其推理时间推理框架使其在推理时间可扩展性方面优于现有方法。

这种设计确保了在需要推理的复杂任务中既具有鲁棒性又具有准确性,从而与传统方法区分开来。

Comparison of the base model and LLaVA-o1

Enhancing Reasoning Capability through Structured Thinking

我们的目标是在训练期间开发一个能够进行扩展推理链的视觉语言模型,使其能够进行系统性和深入的推理。

Reasoning Stages

我们提出的模型,LLaVA-o1,将答案生成过程分解为四个结构化推理阶段:

  • Summary Stage: 在这个初始阶段,LLaVA-o1对问题进行高级总结解释,概述其打算解决的问题的主要方面。
  • Caption Stage: 如果存在图像,LLaVA-o1提供与问题相关的视觉元素的简要概述,帮助理解多模态输入。
  • Reasoning Stage: 在初始总结的基础上,LLaVA-o1进行结构化、逻辑推理以得出初步答案。
  • Conclusion Stage: 在这个最终阶段,LLaVA-o1根据前面的推理综合出一个答案。在此,结论阶段的输出是直接提供给用户的响应,而前三个阶段是内部“隐藏阶段”,代表LLaVA-o1的推理过程。此阶段的输出会根据用户需求进行调整:例如,如果用户请求简短答案,结论将是简洁的;如果需要详细解释,结论将提供全面、详尽的响应。

每个阶段都由模型自行启动,无需外部提示工程框架或额外提示。

具体来说,我们向模型提供了四对特殊标签:<SUMMARY></SUMMARY><CAPTION></CAPTION><REASONING></REASONING><CONCLUSION></CONCLUSION>

这些标签分别对应总结响应方法、描述相关图像内容、进行推理和准备最终答案。

在训练过程中,模型会自主选择这些标签,根据自身判断激活每个阶段。

与OpenAI o1一样,所有阶段都由模型在单个推理过程中完成。这种结构化方法使模型能够独立管理其推理过程,提高其在复杂推理任务上的适应性和性能。

Data Preparation and Model Training

大多数现有的VQA数据集缺乏训练LLaVA-o1模型所需的详细推理过程。

因此,我们编制了一个新的数据集,整合了来自几个广泛使用的VQA数据集的样本,共计99k个图像问答对(每个对可能包含一轮或多轮提问)。

Process flow for generating the LLaVA-o1-100k dataset

如图3所示,由于目前尚不存在可以直接产生系统化、结构化推理的多模态模型,我们使用GPT-4o生成详细的推理过程,包括摘要、标题、推理和结论,并将这些编译成LLaVA-o1-100k数据集,我们计划将其公开发布。

我们包括以下通用VQA数据集和针对科学领域的VQA数据集的数据:

通用VQA数据集。我们包括几个具有不同重点的通用目的VQA数据集。ShareGPT4V提供了来自GPT4V交互的多轮问答数据。ChartQA专注于图表和图形的解读。A-OKVQA强调可见内容之外的外部知识。DocVQA涉及基于文档的问题,需要文本理解。我们还包括PISC来理解社会关系,以及CLEVR来处理物体属性、空间关系和计数任务。

针对科学领域的VQA数据集。这些数据集包括GeoQA+用于几何推理,以及AI2D和ScienceQA,它们针对科学问题。CLEVR-Math,CLEVR的扩展,专注于视觉环境中的算术分析。表1显示了从每个数据集中选出的QA对数量。

The number of samples selected from each benchmark

模型训练。我们构建的LLaVA-o1-100k数据集可用于对任何现有模型进行进一步的监督微调(SFT),以增强推理能力。在本工作中,我们选择Llama-3.2-11B-Vision-Instruct模型作为基础模型,并使用LLaVA-o1-100k数据集进行全参数微调。训练在一个节点上使用8个H100 GPU进行。

Effective Inference Time Scaling using Stagelevel Beam Search

训练后,我们的目标是进一步在推理过程中提升模型的推理能力。

具体来说,我们利用LLaVA-o1的阶段输出,它为推理时间缩放提供了理想的粒度。我们的方法遵循以下步骤:

  1. 为第一阶段的解决方案采样 N N N 个样本。
  2. 随机抽取 2 2 2 个样本,让模型判断哪个更好,保留更好的样本。
  3. 重复 N − 1 N-1 N1 次,保留最佳样本。
  4. 为下一阶段抽取 N N N 个样本,然后重复步骤 2-4,直到所有阶段处理完毕。

值得注意的是,正是LLaVA-o1的结构化输出设计使得这种方法可行,实现了每个阶段的效率和准确验证。这验证了结构化输出在提高推理时间缩放方面的有效性。

An illustration of inference approaches

三种方法的示意图如图4所示。

Comparison of LLaVA-o1 performance with and without stage-level beam search

我们在图5中提供了一个例子。

当不应用推理时间缩放时,尽管模型生成了正确的推理步骤,但在推理过程中却无法得出具体的答案。

这导致模型在结论阶段进行猜测,从而得出错误的结果。

相比之下,在应用推理时间缩放的情况下,模型保留了导致最终结果的推理步骤,确保了答案的正确性。

实验

Experimental results of different models on the benchmark

Performance of different models on the MMStar benchmark across various skill areas

Experimental results during inference time

Comparison to Baseline Methods

Scaling Trend of LLaVA-o1

Experimental results of LLaVA-o1 and state-of-the-art models on reasoning benchmarks

总结

在这篇论文中,我们提出了LLaVA-o1,这是一种新型的视觉语言模型,能够在多个阶段进行结构化、自主推理。

通过引入四个不同的阶段——summary、caption、reasoning和conclusion——LLaVA-o1实现了系统化的推理过程。

我们的贡献有两方面:

  • 首先,创建了包含详细推理标注的LLaVA-o1-100k数据集,支持系统化、结构化响应的训练;
  • 其次,提出了阶段级束搜索方法,实现了有效的推理时间缩放。

总体而言,LLaVA-o1为VLM中的多模态推理设定了新的标准,提供了稳健的性能和可扩展性,尤其是在推理时间方面。

我们的研究为VLM中结构化推理的未来研究铺平了道路,包括与外部验证器的潜在扩展以及使用强化学习进一步增强复杂的多模态推理能力。


http://www.ppmy.cn/ops/137395.html

相关文章

《热带气象学报》

《热带气象学报》创刊于1984年&#xff0c;前身为《热带气象》&#xff0c;1993年更名为《热带气象学报》&#xff0c;是广东省气象局主管&#xff0c;中国气象局广州热带海洋气象研究所主办的中文学术期刊。 本刊坚持“热带气象”的办刊特色&#xff0c;主要刊登&#xff1a;…

Carla学习日志

车辆工程本科小白&#xff0c;如何在Carla中运行仿真&#xff0c;构建车辆行人地图场景模型并且掌握基本的环境感知算法&#xff1f; - Here-Kin的回答 - 知乎 https://www.zhihu.com/question/455478599/answer/2315207702 CARLA Documentation Python API reference 小飞自动…

作业3-基于pytorch的非线性模型设计

一、任务描述 使用BP神经网络和CNN实现对MNITS数据集的识别&#xff0c;并通过修改相关参数&#xff0c;比较各模型的识别准确率。 二、相关配置 pytorch&#xff1a;2.5.1 python&#xff1a;3.12 pycharm&#xff1a;2024.1.2&#xff08;这个影响不大&#xff0c;版本不要太…

模拟算法实例讲解:从理论到实践的编程之旅

目录 1、模拟算法简介 2、替换所有问号 3、提莫攻击 4、Z字形变换 5、外观数列 6、数青蛙 1、模拟算法简介 模拟算法是一种基本的算法设计方法&#xff0c;它的核心思想是按照问题描述的规则&#xff0c;逐步模拟问题的发展过程&#xff0c;从而得到问题的解决方案。这种…

【halcon】Metrology工具系列之 get_metrology_object_model_contour

get_metrology_object_model_contour (Operator) Name get_metrology_object_model_contour — 在图像坐标中查询测量对象的模型轮廓。 Signature get_metrology_object_model_contour( : Contour : MetrologyHandle, Index, Resolution : )Description get_metrology_obj…

【Flink-scala】DataStream编程模型之 窗口的划分-时间概念-窗口计算程序

DataStream编程模型之 窗口的划分-时间概念-窗口计算程序 1. 窗口的划分 1.1 窗口分为&#xff1a;基于时间的窗口 和 基于数量的窗口 基于时间的窗口&#xff1a;基于起始时间戳 和终止时间戳来决定窗口的大小 基于数量的窗口&#xff1a;根据固定的数量定义窗口 的大小 这…

RK3568平台开发系列讲解(DMA篇)DMA engine使用

🚀返回专栏总目录 文章目录 一、申请DMA channel二、配置DMA channel的参数三、获取传输描述(tx descriptor)四、启动传输沉淀、分享、成长,让自己和他人都能有所收获!😄 📢DMA子系统下有一个帮助测试的测试驱动(drivers/dma/dmatest.c), 从这个测试驱动入手我们了解…

简单图论农场派对

题目 2406: 信息学奥赛一本通T1497-农场派对 时间限制: 2s 内存限制: 192MB 提交: 40 解决: 13 题目描述 原题来自&#xff1a;USACO 2007 Feb. Silver N(1≤N≤1000) 头牛要去参加一场在编号为 x(1≤x≤N) 的牛的农场举行的派对。有 M(1≤M≤100000) 条有向道路&#xff0c;每…