Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节

ops/2025/4/2 3:28:02/

记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。

系列模型的应用场景:

  • Qwen-VL:基础图像理解和对话。
  • Qwen2-VL:图像+短视频理解,代理任务。
  • Qwen2.5-VL:长视频、复杂文档解析、多语言支持,适用于更广泛的现实场景。

模型架构演进一览(其实差不多,有一些细节改动):

模型大型语言模型 (LLM)视觉编码器 (ViT)视觉-语言连接机制位置编码
Qwen-VLQwen-7BViT-bigG(OpenClip 初始化),固定分辨率 448×448位置感知 VL Adapter(256 查询,交叉注意力)2D 绝对位置编码
Qwen2-VLQwen2ViT(DFN 初始化),动态分辨率支持,最大 16384 标记MLP 压缩(2×2 标记合并)2D-RoPE + M-RoPE(多模态
Qwen2.5-VLQwen2.5重新设计 ViT,原生分辨率,窗口注意力,3D patchMLP 压缩(4 patch 合并)2D-RoPE + MRoPE(绝对时间)

一、Qwen-VL

模型架构

  1. 大型语言模型(LLM):Qwen-7B

  2. 视觉编码器:采用Vision Transformer(ViT)架构,初始化权重来自OpenClip的ViT-bigG。

    • 输入处理:输入图像被调整到特定分辨率,然后被分割成固定大小的patch。
    • 特征提取:ViT通过自注意力机制来捕捉图像中的全局和局部信息,生成一组图像特征。
  3. 位置感知的视觉-语言适配器:为了缓解长图像特征序列带来的效率问题,Qwen-VL引入了一个视觉-语言适配器。这个适配器的作用是将图像特征序列压缩到一个固定长度(例如256),以便更好地与语言模型结合。

    • 压缩机制:适配器包含一个单层交叉注意力模块,使用可学习的查询向量对图像特征进行压缩。
    • 位置信息:为了保持位置信息的完整性,适配器在交叉注意力机制中使用2D绝对位置编码。
  4. 输入和输出

  • 图像输入:图像通过视觉编码器和适配器处理后,生成固定长度的图像特征序列。为了区分图像特征输入和文本特征输入,特殊标记( 和 )被添加到图像特征序列的开头和结尾。
  • 边界框输入和输出:为了增强模型的细粒度视觉理解能力,Qwen-VL支持边界框输入和输出。边界框通过标准化和字符串格式化处理,使用特殊标记( 和 )进行区分。

训练方法

训练过程分为三个阶段:两个预训练阶段和一个指令微调阶段。

阶段1 预训练
  • 目标:利用大规模、弱标注的图像-文本对数据训练模型,优化视觉编码器和视觉-语言适配器,同时冻结大型语言模型。
  • 数据集:从多个公开来源(如 LAION、DataComp、Coyo 等)和内部数据中收集 50 亿图像-文本对,清理后剩 14 亿(英语 77.3%,中文 22.7%)。数据清理后保留率 28%,数据集细节如下:

  • 训练细节
    • 输入图像分辨率: 224 × 224 224 \times 224 224×224
    • 训练目标:最小化文本标记的交叉熵。
    • 超参数:最大学习率 2 × 1 0 − 4 2 \times 10^{-4} 2×104,批量大小 30720,训练 50,000 步,处理约 15 亿样本。
阶段2 多任务预训练
  • 目标:引入高质量、细粒度标注数据,提升模型的多任务能力,解锁并训练整体模型。

  • 数据集:涵盖 7 个任务(说明、VQA、对齐、引用对齐、接地说明、OCR、纯文本自回归),数据来源包括 GRIT、Visual Genome、RefCOCO 等,以及内部数据和合成 OCR 数据,总计约 77M 样本。

  • 训练数据格式:

  • 训练细节

    • 视觉编码器分辨率提升至 448 × 448 448 \times 448 448×448,移除窗口和全局注意力机制。
    • 数据格式:交错图像-文本序列,长度 2048。
    • 训练目标与预训练阶段一致。
  • 改进:更高的分辨率减少信息丢失,任务多样性增强模型能力。

阶段3 SFT
  • 目标:通过指令微调提升 Qwen-VL 的指令遵循和对话能力,生成 Qwen-VL-Chat。

  • 数据集:使用 350k 指令调整数据,包括 LLM 自生成的图像说明/对话数据、手动标注和模型生成的定位/多图像理解数据,以及多模态和纯文本对话数据的混合。

  • 训练数据格式:

  • 训练细节:冻结视觉编码器,仅优化语言模型和适配器。

  • 结果:模型有效迁移定位和多图像理解能力至多种语言和问题类型,同时保持对话通用性。


超参数细节

三阶段训练超参数细节

二、Qwen2-VL

Qwen2-VL总体沿用了

模型架构

1. 视觉编码器:

沿用qwen-vl的形式视觉编码器ViT,但有如下几点改进:

  • 动态分辨率支持:Qwen2-VL引入了“Naive Dynamic Resolution”机制,允许模型动态地将不同分辨率的图像转换为不同数量的视觉tokens。这种灵活性使得模型能够更有效地处理各种分辨率的图像,而不会损失细节信息。

  • 2D-RoPE:为了更好地捕捉图像的空间信息,Qwen2-VL在ViT中引入了二维旋转位置嵌入(2D-RoPE)。传统的RoPE用于一维序列,而2D-RoPE则扩展到二维空间,能够同时捕捉图像的高度和宽度信息。

  • 压缩机制:在推理阶段,Qwen2-VL使用一个简单的多层感知机(MLP)层来压缩相邻的2x2标记为一个标记,以减少每个图像的视觉标记数量。有助于减少计算负担,同时保持模型的性能。

2. 多模态旋转位置嵌入(M-RoPE)

M-RoPE是Qwen2-VL的创新点,用于建模多模态输入的位置信息。传统的RoPE仅限于一维序列,而M-RoPE则扩展到多模态输入。实现方式如下:

  • 分解位置嵌入:M-RoPE将原始的旋转嵌入分解为三个组件:时间、高度和宽度。对于文本输入,这三个组件使用相同的位置ID,使其功能上等同于1D-RoPE。

  • 多模态应用:在处理图像时,时间ID保持不变,而高度和宽度组件根据标记在图像中的位置分配不同的ID。对于视频,时间ID随着每一帧的增加而递增,而高度和宽度组件的ID分配模式与图像相同。

3. 统一的图像和视频理解

Qwen2-VL采用混合训练方法,结合图像和视频数据进行训练,以确保模型在图像理解和视频理解方面的能力。训练策略如下:

  • 视频采样:为了尽可能完整地保留视频信息,Qwen2-VL每秒采样两帧视频。此外,使用3D卷积来处理视频输入,允许模型处理3D管状结构而不是2D补丁,从而能够处理更多的视频帧而不增加序列长度。

  • 动态调整分辨率:为了平衡长视频处理的计算需求和整体训练效率,Qwen2-VL动态调整每个视频帧的分辨率,限制每个视频的总标记数为16384。这种策略确保了模型在处理长视频时的效率和性能。

训练方法

阶段1:预训练

通过大量的图像-文本对,训练ViT以提取图像中的特征,并将其与文本信息相结合。
目标:专注于训练视觉Transformer(ViT)组件,以增强大型语言模型(LLM)的语义理解能力。
数据:使用大规模的图像-文本对数据集进行训练,以提高模型对图像语义的理解。

阶段2:全参数预训练

通过更广泛的数据集,训练模型在多种任务上的表现,特别是复杂的多模态任务。
目标:解锁所有参数并进行更广泛的数据训练,实现更全面的学习。
数据:引入更多样化的数据集,包括图像-文本对、OCR数据、交错图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。

阶段3:SFT

通过SFT,训练模型理解和执行各种指令的能力,特别是在多模态任务中。

  • 目标:冻结ViT参数,专门对LLM进行微调,优化其在指令遵循任务上的表现。
  • 数据:使用指令遵循数据集进行训练,涵盖纯文本对话数据和多模态对话数据。数据格式如下:

Qwen2.5-VL

模型架构

在Qwen2.5-VL中,模型的整体架构由三个主要组件构成:大型语言模型(LLM)、视觉编码器(Vision Encoder)和基于MLP的视觉-语言融合器。以下是对这些组件的详细解释:

  1. LLM:Qwen2.5 LLM

  2. 视觉编码器:采用重新设计的ViT架构。支持原生输入分辨率,同时加速整个视觉编码器的计算过程。

    • 2D-RoPE:用于有效地捕捉二维空间中的空间关系。
    • 窗口注意力:在大多数层中使用窗口注意力,以确保计算成本与patch数量成线性关系,而不是二次关系。这种设计允许模型在处理不同大小的图像时保持高效。
    • 动态采样:在训练过程中,图像的高度和宽度被调整为28的倍数,然后输入到ViT中。输入图像被分割成步长为14的patch,生成一组图像特征。
    • 3D patch划分:对于视频数据,两帧连续的图像被组合在一起,以减少输入到语言模型的标记数量。这种方法不仅保持了与传统架构的兼容性,还提高了处理顺序视频数据的效率。
  3. 基于MLP的视觉-语言融合器:为了应对长序列图像特征的效率挑战,Qwen2.5-VL采用了一种简单而有效的方法来压缩特征序列。首先,不直接使用ViT提取的原始补丁特征,而是将空间上相邻的四组patch特征进行分组。这些分组的特征随后被连接并通过一个两层的MLP进行处理,将其投影到与文本嵌入对齐的维度。这种方法不仅减少了计算成本,还提供了一种灵活的方式来动态压缩不同长度的图像特征序列。

训练方法

Qwen2.5-VL 整体的预训练分为三个阶段:

阶段1:预训练
  • 视觉预训练: 仅训练 ViT,使用图像标题、视觉知识和 OCR 数据。
  • 多模态预训练: 解冻所有模型参数,使用交错数据、VQA、视频、智能体等多种数据。
  • 长上下文预训练: 引入视频、智能体数据,并增加序列长度。

预训练数据着重通过各种策略提升了数据质量:

  • 交错图文数据: 通过数据评分和清洗流程,确保使用高质量、相关的交错数据。
  • 绝对位置坐标的grounding数据: 使用基于输入图像实际尺寸的坐标值来表示边界框和点,提高模型对真实世界尺度和空间关系的捕捉能力。
  • 文档全解析数据: 合成包含表格、图表、公式、图像、乐谱、化学式等多种元素的文档数据,并以 HTML 格式统一表示,实现多模态文档元素的无缝集成。
  • OCR 数据: 收集和整理来自不同来源的 OCR 数据,包括合成数据、开源数据和内部收集的数据,并支持多种语言。
  • 视频数据: 动态采样 FPS,构建长视频标题,并以秒和时分秒帧 (hmsf) 格式表示时间戳。
  • 智能体数据: 收集移动、Web 和桌面平台的屏幕截图,并使用合成数据引擎生成屏幕截图标题和 UI 元素接地注释。

其中最值得注意的特性是目标检测任务使用了绝对位置坐标,以及视频数据训练中进行动态采样FPS(Frames per second),目的是为了增强VLM的空间和时间理解能力。

后训练

Qwen2.5-VL 的后训练采用包含监督微调 (SFT) 和直接偏好优化 (DPO) 的双阶段优化范式,ViT的参数在整个后训练阶段都是冻结的。

  1. 监督微调 (SFT)

    SFT阶段用到的instruction data包含约 200 万条数据,50% 为纯文本数据,50% 为多模态数据(图文和视频文本)。在数据过滤流程中,先使用 Qwen2-VL-Instag (一个基于Qwen2-VL的分类模型)将 QA 对分层分类为 8 个主要领域和 30 个细粒度子类别,然后对于这些细分类别,使用领域定制过滤,结合基于规则和基于模型的过滤方法。

    • 基于规则的过滤: 删除重复模式、不完整或格式错误的条目,以及不相关或可能导致有害输出的查询和答案。
    • 基于模型的过滤: 使用 Qwen2.5-VL 系列训练的奖励模型评估多模态 QA 对。

    此外,在训练中还使用拒绝采样 (Rejection Sampling)技术,增强模型的推理能力。使用一个中间版本的 Qwen2.5-VL 模型,对带有标注(ground truth)的数据集生成响应,将模型生成的响应与标注的正确答案进行比较,只保留模型输出与正确答案匹配的样本,丢弃不匹配的样本。此外还进一步过滤掉不理想的输出,例如:代码切换 (code-switching)、过长 (excessive length)、重复模式 (repetitive patterns)等。通过这种方式,确保数据集中只包含高质量、准确的示例。

  2. 直接偏好优化 (DPO):

    介绍的不是特别的详细,没看懂,仅使用图文和纯文本数据,不使用视频数据,利用偏好数据将模型与人类偏好对齐。

参考文献

  • Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond,https://arxiv.org/pdf/2308.12966

  • Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution,https://arxiv.org/pdf/2409.12191

  • Qwen2.5-VL Technical Report,https://arxiv.org/abs/2502.13923


http://www.ppmy.cn/ops/170017.html

相关文章

Excel(函数进阶篇):FILTER函数全解读、XLOOKUP函数全解读、UNIQUE函数、数组与数组公式

目录 数组与数组函数office365中VLOOKUP函数的加强数组中的多条件判断FILTER函数详解用法概述函数语法 基础筛选多条件筛选进阶技巧结合动态数组 高级函数整合错误处理注意事项FILTER经典问题:一对多查询 XLOOKUP函数XLOOKUP基础用法XLOOKUP函数多条件匹配和双向查询…

STM32八股【2】-----ARM架构

1、架构包含哪几部分内容 寄存器处理模式流水线MMU指令集中断FPU总线架构 2、以STM32为例进行介绍 2.1 寄存器 寄存器名称作用R0-R3通用寄存器用于数据传递、计算及函数参数传递;R0 也用于存储函数返回值。R4-R12通用寄存器用于存储局部变量,减少频繁…

solana增加流动性和删除流动性

在 Solana 区块链上增加和删除流动性通常通过去中心化交易所(DEX)实现,例如 Raydium 或 Orca。以下是详细的操作流程和注意事项: 一、增加流动性 步骤: 1. 连接钱包 使用支持 Solana 的钱包(如 Phantom、…

电机控制常见面试问题(十八)

文章目录 一.电机控制高级拓扑结构1.LLC 二.谈谈电压器饱和后果三.电压器绕组连接方式的影响四.有源逆变的条件 一.电机控制高级拓扑结构 1.LLC LLC是什么?—— 一个会"变魔术"的电源盒子 想象你有一个魔法盒子,能把电池的电压变大或变小&…

流式ETL配置指南:从MySQL到Elasticsearch的实时数据同步

流式ETL配置指南:从MySQL到Elasticsearch的实时数据同步 场景介绍 假设您运营一个电商平台,需要将MySQL数据库中的订单、用户和产品信息实时同步到Elasticsearch,以支持实时搜索、分析和仪表盘展示。传统的批处理ETL无法满足实时性要求&…

华为OD机试2025A卷 - 游戏分组/王者荣耀(Java Python JS C++ C )

最新华为OD机试 真题目录:点击查看目录 华为OD面试真题精选:点击立即查看 题目描述 2020年题: 英雄联盟是一款十分火热的对战类游戏。每一场对战有10位玩家参与,分为两组,每组5人。每位玩家都有一个战斗力,代表着这位玩家的厉害程度。为了对战尽可能精彩,我们需要…

FPGA中串行执行方式之计数器控制

FPGA中串行执行方式之计数器控制 使用计数器控制的方式实现状态机是一种简单且直观的方法。它通过计数器的值来控制状态的变化,从而实现顺序逻辑。计数器的方式特别适合状态较少且状态转移是固定的场景。 基本原理 计数器控制的状态机 ​例程1:简单的顺序状态机 以下是一个…

23种设计模式-备忘录(Memento)设计模式

备忘录设计模式 🚩什么是备忘录设计模式?🚩备忘录设计模式的特点🚩备忘录设计模式的结构🚩备忘录设计模式的优缺点🚩备忘录设计模式的Java实现🚩代码总结🚩总结 🚩什么是…