Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节

记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节，仅供参考。

系列模型的应用场景：

Qwen-VL：基础图像理解和对话。
Qwen2-VL：图像+短视频理解，代理任务。
Qwen2.5-VL：长视频、复杂文档解析、多语言支持，适用于更广泛的现实场景。

模型架构演进一览（其实差不多，有一些细节改动）：

模型	大型语言模型 (LLM)	视觉编码器 (ViT)	视觉-语言连接机制	位置编码
Qwen-VL	Qwen-7B	ViT-bigG（OpenClip 初始化），固定分辨率 448×448	位置感知 VL Adapter（256 查询，交叉注意力）	2D 绝对位置编码
Qwen2-VL	Qwen2	ViT（DFN 初始化），动态分辨率支持，最大 16384 标记	MLP 压缩（2×2 标记合并）	2D-RoPE + M-RoPE（多模态）
Qwen2.5-VL	Qwen2.5	重新设计 ViT，原生分辨率，窗口注意力，3D patch	MLP 压缩（4 patch 合并）	2D-RoPE + MRoPE（绝对时间）

一、Qwen-VL

模型架构

大型语言模型（LLM）：Qwen-7B
视觉编码器：采用Vision Transformer（ViT）架构，初始化权重来自OpenClip的ViT-bigG。
- 输入处理：输入图像被调整到特定分辨率，然后被分割成固定大小的patch。
- 特征提取：ViT通过自注意力机制来捕捉图像中的全局和局部信息，生成一组图像特征。
位置感知的视觉-语言适配器：为了缓解长图像特征序列带来的效率问题，Qwen-VL引入了一个视觉-语言适配器。这个适配器的作用是将图像特征序列压缩到一个固定长度（例如256），以便更好地与语言模型结合。
- 压缩机制：适配器包含一个单层交叉注意力模块，使用可学习的查询向量对图像特征进行压缩。
- 位置信息：为了保持位置信息的完整性，适配器在交叉注意力机制中使用2D绝对位置编码。
输入和输出

图像输入：图像通过视觉编码器和适配器处理后，生成固定长度的图像特征序列。为了区分图像特征输入和文本特征输入，特殊标记（和）被添加到图像特征序列的开头和结尾。
边界框输入和输出：为了增强模型的细粒度视觉理解能力，Qwen-VL支持边界框输入和输出。边界框通过标准化和字符串格式化处理，使用特殊标记（和）进行区分。

训练方法

训练过程分为三个阶段：两个预训练阶段和一个指令微调阶段。

阶段1 预训练

目标：利用大规模、弱标注的图像-文本对数据训练模型，优化视觉编码器和视觉-语言适配器，同时冻结大型语言模型。
数据集：从多个公开来源（如 LAION、DataComp、Coyo 等）和内部数据中收集 50 亿图像-文本对，清理后剩 14 亿（英语 77.3%，中文 22.7%）。数据清理后保留率 28%，数据集细节如下：

训练细节：
- 输入图像分辨率： $224 \times 224$ 。
- 训练目标：最小化文本标记的交叉熵。
- 超参数：最大学习率 $\times 10^{-4}$ ，批量大小 30720，训练 50,000 步，处理约 15 亿样本。

阶段2 多任务预训练

目标：引入高质量、细粒度标注数据，提升模型的多任务能力，解锁并训练整体模型。
数据集：涵盖 7 个任务（说明、VQA、对齐、引用对齐、接地说明、OCR、纯文本自回归），数据来源包括 GRIT、Visual Genome、RefCOCO 等，以及内部数据和合成 OCR 数据，总计约 77M 样本。
训练数据格式：
训练细节：
- 视觉编码器分辨率提升至 $448 \times 448$ ，移除窗口和全局注意力机制。
- 数据格式：交错图像-文本序列，长度 2048。
- 训练目标与预训练阶段一致。
改进：更高的分辨率减少信息丢失，任务多样性增强模型能力。

阶段3 SFT

目标：通过指令微调提升 Qwen-VL 的指令遵循和对话能力，生成 Qwen-VL-Chat。
数据集：使用 350k 指令调整数据，包括 LLM 自生成的图像说明/对话数据、手动标注和模型生成的定位/多图像理解数据，以及多模态和纯文本对话数据的混合。
训练数据格式：
训练细节：冻结视觉编码器，仅优化语言模型和适配器。
结果：模型有效迁移定位和多图像理解能力至多种语言和问题类型，同时保持对话通用性。

超参数细节

三阶段训练超参数细节

二、Qwen2-VL

Qwen2-VL总体沿用了

模型架构

1. 视觉编码器：

沿用qwen-vl的形式视觉编码器ViT，但有如下几点改进：

动态分辨率支持：Qwen2-VL引入了“Naive Dynamic Resolution”机制，允许模型动态地将不同分辨率的图像转换为不同数量的视觉tokens。这种灵活性使得模型能够更有效地处理各种分辨率的图像，而不会损失细节信息。
2D-RoPE：为了更好地捕捉图像的空间信息，Qwen2-VL在ViT中引入了二维旋转位置嵌入（2D-RoPE）。传统的RoPE用于一维序列，而2D-RoPE则扩展到二维空间，能够同时捕捉图像的高度和宽度信息。
压缩机制：在推理阶段，Qwen2-VL使用一个简单的多层感知机（MLP）层来压缩相邻的2x2标记为一个标记，以减少每个图像的视觉标记数量。有助于减少计算负担，同时保持模型的性能。

2. 多模态旋转位置嵌入（M-RoPE）

M-RoPE是Qwen2-VL的创新点，用于建模多模态输入的位置信息。传统的RoPE仅限于一维序列，而M-RoPE则扩展到多模态输入。实现方式如下：

分解位置嵌入：M-RoPE将原始的旋转嵌入分解为三个组件：时间、高度和宽度。对于文本输入，这三个组件使用相同的位置ID，使其功能上等同于1D-RoPE。
多模态应用：在处理图像时，时间ID保持不变，而高度和宽度组件根据标记在图像中的位置分配不同的ID。对于视频，时间ID随着每一帧的增加而递增，而高度和宽度组件的ID分配模式与图像相同。

3. 统一的图像和视频理解

Qwen2-VL采用混合训练方法，结合图像和视频数据进行训练，以确保模型在图像理解和视频理解方面的能力。训练策略如下：

视频采样：为了尽可能完整地保留视频信息，Qwen2-VL每秒采样两帧视频。此外，使用3D卷积来处理视频输入，允许模型处理3D管状结构而不是2D补丁，从而能够处理更多的视频帧而不增加序列长度。
动态调整分辨率：为了平衡长视频处理的计算需求和整体训练效率，Qwen2-VL动态调整每个视频帧的分辨率，限制每个视频的总标记数为16384。这种策略确保了模型在处理长视频时的效率和性能。

训练方法

阶段1：预训练

通过大量的图像-文本对，训练ViT以提取图像中的特征，并将其与文本信息相结合。
• 目标：专注于训练视觉Transformer（ViT）组件，以增强大型语言模型（LLM）的语义理解能力。
• 数据：使用大规模的图像-文本对数据集进行训练，以提高模型对图像语义的理解。

阶段2：全参数预训练

通过更广泛的数据集，训练模型在多种任务上的表现，特别是复杂的多模态任务。
• 目标：解锁所有参数并进行更广泛的数据训练，实现更全面的学习。
• 数据：引入更多样化的数据集，包括图像-文本对、OCR数据、交错图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。

阶段3：SFT

通过SFT，训练模型理解和执行各种指令的能力，特别是在多模态任务中。

目标：冻结ViT参数，专门对LLM进行微调，优化其在指令遵循任务上的表现。
数据：使用指令遵循数据集进行训练，涵盖纯文本对话数据和多模态对话数据。数据格式如下：

Qwen2.5-VL

模型架构

在Qwen2.5-VL中，模型的整体架构由三个主要组件构成：大型语言模型（LLM）、视觉编码器（Vision Encoder）和基于MLP的视觉-语言融合器。以下是对这些组件的详细解释：

LLM：Qwen2.5 LLM
视觉编码器：采用重新设计的ViT架构。支持原生输入分辨率，同时加速整个视觉编码器的计算过程。
- 2D-RoPE：用于有效地捕捉二维空间中的空间关系。
- 窗口注意力：在大多数层中使用窗口注意力，以确保计算成本与patch数量成线性关系，而不是二次关系。这种设计允许模型在处理不同大小的图像时保持高效。
- 动态采样：在训练过程中，图像的高度和宽度被调整为28的倍数，然后输入到ViT中。输入图像被分割成步长为14的patch，生成一组图像特征。
- 3D patch划分：对于视频数据，两帧连续的图像被组合在一起，以减少输入到语言模型的标记数量。这种方法不仅保持了与传统架构的兼容性，还提高了处理顺序视频数据的效率。
基于MLP的视觉-语言融合器：为了应对长序列图像特征的效率挑战，Qwen2.5-VL采用了一种简单而有效的方法来压缩特征序列。首先，不直接使用ViT提取的原始补丁特征，而是将空间上相邻的四组patch特征进行分组。这些分组的特征随后被连接并通过一个两层的MLP进行处理，将其投影到与文本嵌入对齐的维度。这种方法不仅减少了计算成本，还提供了一种灵活的方式来动态压缩不同长度的图像特征序列。

训练方法

Qwen2.5-VL 整体的预训练分为三个阶段：

阶段1：预训练

视觉预训练: 仅训练 ViT，使用图像标题、视觉知识和 OCR 数据。
多模态预训练: 解冻所有模型参数，使用交错数据、VQA、视频、智能体等多种数据。
长上下文预训练: 引入视频、智能体数据，并增加序列长度。

预训练数据着重通过各种策略提升了数据质量：

交错图文数据: 通过数据评分和清洗流程，确保使用高质量、相关的交错数据。
绝对位置坐标的grounding数据: 使用基于输入图像实际尺寸的坐标值来表示边界框和点，提高模型对真实世界尺度和空间关系的捕捉能力。
文档全解析数据: 合成包含表格、图表、公式、图像、乐谱、化学式等多种元素的文档数据，并以 HTML 格式统一表示，实现多模态文档元素的无缝集成。
OCR 数据: 收集和整理来自不同来源的 OCR 数据，包括合成数据、开源数据和内部收集的数据，并支持多种语言。
视频数据: 动态采样 FPS，构建长视频标题，并以秒和时分秒帧 (hmsf) 格式表示时间戳。
智能体数据: 收集移动、Web 和桌面平台的屏幕截图，并使用合成数据引擎生成屏幕截图标题和 UI 元素接地注释。

其中最值得注意的特性是目标检测任务使用了绝对位置坐标，以及视频数据训练中进行动态采样FPS(Frames per second)，目的是为了增强VLM的空间和时间理解能力。

后训练

Qwen2.5-VL 的后训练采用包含监督微调 (SFT) 和直接偏好优化 (DPO) 的双阶段优化范式，ViT的参数在整个后训练阶段都是冻结的。

监督微调 (SFT)

SFT阶段用到的instruction data包含约 200 万条数据，50% 为纯文本数据，50% 为多模态数据（图文和视频文本）。在数据过滤流程中，先使用 Qwen2-VL-Instag （一个基于Qwen2-VL的分类模型）将 QA 对分层分类为 8 个主要领域和 30 个细粒度子类别，然后对于这些细分类别，使用领域定制过滤，结合基于规则和基于模型的过滤方法。
- 基于规则的过滤: 删除重复模式、不完整或格式错误的条目，以及不相关或可能导致有害输出的查询和答案。
- 基于模型的过滤: 使用 Qwen2.5-VL 系列训练的奖励模型评估多模态 QA 对。
此外，在训练中还使用拒绝采样 (Rejection Sampling)技术，增强模型的推理能力。使用一个中间版本的 Qwen2.5-VL 模型，对带有标注（ground truth）的数据集生成响应，将模型生成的响应与标注的正确答案进行比较，只保留模型输出与正确答案匹配的样本，丢弃不匹配的样本。此外还进一步过滤掉不理想的输出，例如：代码切换 (code-switching)、过长 (excessive length)、重复模式 (repetitive patterns)等。通过这种方式，确保数据集中只包含高质量、准确的示例。
直接偏好优化 (DPO):

介绍的不是特别的详细，没看懂，仅使用图文和纯文本数据，不使用视频数据，利用偏好数据将模型与人类偏好对齐。

参考文献

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond，https://arxiv.org/pdf/2308.12966
Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution，https://arxiv.org/pdf/2409.12191
Qwen2.5-VL Technical Report，https://arxiv.org/abs/2502.13923