记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。
系列模型的应用场景:
- Qwen-VL:基础图像理解和对话。
- Qwen2-VL:图像+短视频理解,代理任务。
- Qwen2.5-VL:长视频、复杂文档解析、多语言支持,适用于更广泛的现实场景。
模型架构演进一览(其实差不多,有一些细节改动):
模型 | 大型语言模型 (LLM) | 视觉编码器 (ViT) | 视觉-语言连接机制 | 位置编码 |
---|---|---|---|---|
Qwen-VL | Qwen-7B | ViT-bigG(OpenClip 初始化),固定分辨率 448×448 | 位置感知 VL Adapter(256 查询,交叉注意力) | 2D 绝对位置编码 |
Qwen2-VL | Qwen2 | ViT(DFN 初始化),动态分辨率支持,最大 16384 标记 | MLP 压缩(2×2 标记合并) | 2D-RoPE + M-RoPE(多模态) |
Qwen2.5-VL | Qwen2.5 | 重新设计 ViT,原生分辨率,窗口注意力,3D patch | MLP 压缩(4 patch 合并) | 2D-RoPE + MRoPE(绝对时间) |
一、Qwen-VL
模型架构
-
大型语言模型(LLM):Qwen-7B
-
视觉编码器:采用Vision Transformer(ViT)架构,初始化权重来自OpenClip的ViT-bigG。
- 输入处理:输入图像被调整到特定分辨率,然后被分割成固定大小的patch。
- 特征提取:ViT通过自注意力机制来捕捉图像中的全局和局部信息,生成一组图像特征。
-
位置感知的视觉-语言适配器:为了缓解长图像特征序列带来的效率问题,Qwen-VL引入了一个视觉-语言适配器。这个适配器的作用是将图像特征序列压缩到一个固定长度(例如256),以便更好地与语言模型结合。
- 压缩机制:适配器包含一个单层交叉注意力模块,使用可学习的查询向量对图像特征进行压缩。
- 位置信息:为了保持位置信息的完整性,适配器在交叉注意力机制中使用2D绝对位置编码。
-
输入和输出
- 图像输入:图像通过视觉编码器和适配器处理后,生成固定长度的图像特征序列。为了区分图像特征输入和文本特征输入,特殊标记( 和 )被添加到图像特征序列的开头和结尾。
- 边界框输入和输出:为了增强模型的细粒度视觉理解能力,Qwen-VL支持边界框输入和输出。边界框通过标准化和字符串格式化处理,使用特殊标记( 和 )进行区分。
训练方法
训练过程分为三个阶段:两个预训练阶段和一个指令微调阶段。
阶段1 预训练
- 目标:利用大规模、弱标注的图像-文本对数据训练模型,优化视觉编码器和视觉-语言适配器,同时冻结大型语言模型。
- 数据集:从多个公开来源(如 LAION、DataComp、Coyo 等)和内部数据中收集 50 亿图像-文本对,清理后剩 14 亿(英语 77.3%,中文 22.7%)。数据清理后保留率 28%,数据集细节如下:
- 训练细节:
- 输入图像分辨率: 224 × 224 224 \times 224 224×224。
- 训练目标:最小化文本标记的交叉熵。
- 超参数:最大学习率 2 × 1 0 − 4 2 \times 10^{-4} 2×10−4,批量大小 30720,训练 50,000 步,处理约 15 亿样本。
阶段2 多任务预训练
-
目标:引入高质量、细粒度标注数据,提升模型的多任务能力,解锁并训练整体模型。
-
数据集:涵盖 7 个任务(说明、VQA、对齐、引用对齐、接地说明、OCR、纯文本自回归),数据来源包括 GRIT、Visual Genome、RefCOCO 等,以及内部数据和合成 OCR 数据,总计约 77M 样本。
-
训练数据格式:
-
训练细节:
- 视觉编码器分辨率提升至 448 × 448 448 \times 448 448×448,移除窗口和全局注意力机制。
- 数据格式:交错图像-文本序列,长度 2048。
- 训练目标与预训练阶段一致。
-
改进:更高的分辨率减少信息丢失,任务多样性增强模型能力。
阶段3 SFT
-
目标:通过指令微调提升 Qwen-VL 的指令遵循和对话能力,生成 Qwen-VL-Chat。
-
数据集:使用 350k 指令调整数据,包括 LLM 自生成的图像说明/对话数据、手动标注和模型生成的定位/多图像理解数据,以及多模态和纯文本对话数据的混合。
-
训练数据格式:
-
训练细节:冻结视觉编码器,仅优化语言模型和适配器。
-
结果:模型有效迁移定位和多图像理解能力至多种语言和问题类型,同时保持对话通用性。
超参数细节
二、Qwen2-VL
Qwen2-VL总体沿用了
模型架构
1. 视觉编码器:
沿用qwen-vl的形式视觉编码器ViT,但有如下几点改进:
-
动态分辨率支持:Qwen2-VL引入了“Naive Dynamic Resolution”机制,允许模型动态地将不同分辨率的图像转换为不同数量的视觉tokens。这种灵活性使得模型能够更有效地处理各种分辨率的图像,而不会损失细节信息。
-
2D-RoPE:为了更好地捕捉图像的空间信息,Qwen2-VL在ViT中引入了二维旋转位置嵌入(2D-RoPE)。传统的RoPE用于一维序列,而2D-RoPE则扩展到二维空间,能够同时捕捉图像的高度和宽度信息。
-
压缩机制:在推理阶段,Qwen2-VL使用一个简单的多层感知机(MLP)层来压缩相邻的2x2标记为一个标记,以减少每个图像的视觉标记数量。有助于减少计算负担,同时保持模型的性能。
2. 多模态旋转位置嵌入(M-RoPE)
M-RoPE是Qwen2-VL的创新点,用于建模多模态输入的位置信息。传统的RoPE仅限于一维序列,而M-RoPE则扩展到多模态输入。实现方式如下:
-
分解位置嵌入:M-RoPE将原始的旋转嵌入分解为三个组件:时间、高度和宽度。对于文本输入,这三个组件使用相同的位置ID,使其功能上等同于1D-RoPE。
-
多模态应用:在处理图像时,时间ID保持不变,而高度和宽度组件根据标记在图像中的位置分配不同的ID。对于视频,时间ID随着每一帧的增加而递增,而高度和宽度组件的ID分配模式与图像相同。
3. 统一的图像和视频理解
Qwen2-VL采用混合训练方法,结合图像和视频数据进行训练,以确保模型在图像理解和视频理解方面的能力。训练策略如下:
-
视频采样:为了尽可能完整地保留视频信息,Qwen2-VL每秒采样两帧视频。此外,使用3D卷积来处理视频输入,允许模型处理3D管状结构而不是2D补丁,从而能够处理更多的视频帧而不增加序列长度。
-
动态调整分辨率:为了平衡长视频处理的计算需求和整体训练效率,Qwen2-VL动态调整每个视频帧的分辨率,限制每个视频的总标记数为16384。这种策略确保了模型在处理长视频时的效率和性能。
训练方法
阶段1:预训练
通过大量的图像-文本对,训练ViT以提取图像中的特征,并将其与文本信息相结合。
• 目标:专注于训练视觉Transformer(ViT)组件,以增强大型语言模型(LLM)的语义理解能力。
• 数据:使用大规模的图像-文本对数据集进行训练,以提高模型对图像语义的理解。
阶段2:全参数预训练
通过更广泛的数据集,训练模型在多种任务上的表现,特别是复杂的多模态任务。
• 目标:解锁所有参数并进行更广泛的数据训练,实现更全面的学习。
• 数据:引入更多样化的数据集,包括图像-文本对、OCR数据、交错图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。
阶段3:SFT
通过SFT,训练模型理解和执行各种指令的能力,特别是在多模态任务中。
- 目标:冻结ViT参数,专门对LLM进行微调,优化其在指令遵循任务上的表现。
- 数据:使用指令遵循数据集进行训练,涵盖纯文本对话数据和多模态对话数据。数据格式如下:
Qwen2.5-VL
模型架构
在Qwen2.5-VL中,模型的整体架构由三个主要组件构成:大型语言模型(LLM)、视觉编码器(Vision Encoder)和基于MLP的视觉-语言融合器。以下是对这些组件的详细解释:
-
LLM:Qwen2.5 LLM
-
视觉编码器:采用重新设计的ViT架构。支持原生输入分辨率,同时加速整个视觉编码器的计算过程。
- 2D-RoPE:用于有效地捕捉二维空间中的空间关系。
- 窗口注意力:在大多数层中使用窗口注意力,以确保计算成本与patch数量成线性关系,而不是二次关系。这种设计允许模型在处理不同大小的图像时保持高效。
- 动态采样:在训练过程中,图像的高度和宽度被调整为28的倍数,然后输入到ViT中。输入图像被分割成步长为14的patch,生成一组图像特征。
- 3D patch划分:对于视频数据,两帧连续的图像被组合在一起,以减少输入到语言模型的标记数量。这种方法不仅保持了与传统架构的兼容性,还提高了处理顺序视频数据的效率。
-
基于MLP的视觉-语言融合器:为了应对长序列图像特征的效率挑战,Qwen2.5-VL采用了一种简单而有效的方法来压缩特征序列。首先,不直接使用ViT提取的原始补丁特征,而是将空间上相邻的四组patch特征进行分组。这些分组的特征随后被连接并通过一个两层的MLP进行处理,将其投影到与文本嵌入对齐的维度。这种方法不仅减少了计算成本,还提供了一种灵活的方式来动态压缩不同长度的图像特征序列。
训练方法
Qwen2.5-VL 整体的预训练分为三个阶段:
阶段1:预训练
- 视觉预训练: 仅训练 ViT,使用图像标题、视觉知识和 OCR 数据。
- 多模态预训练: 解冻所有模型参数,使用交错数据、VQA、视频、智能体等多种数据。
- 长上下文预训练: 引入视频、智能体数据,并增加序列长度。
预训练数据着重通过各种策略提升了数据质量:
- 交错图文数据: 通过数据评分和清洗流程,确保使用高质量、相关的交错数据。
- 绝对位置坐标的grounding数据: 使用基于输入图像实际尺寸的坐标值来表示边界框和点,提高模型对真实世界尺度和空间关系的捕捉能力。
- 文档全解析数据: 合成包含表格、图表、公式、图像、乐谱、化学式等多种元素的文档数据,并以 HTML 格式统一表示,实现多模态文档元素的无缝集成。
- OCR 数据: 收集和整理来自不同来源的 OCR 数据,包括合成数据、开源数据和内部收集的数据,并支持多种语言。
- 视频数据: 动态采样 FPS,构建长视频标题,并以秒和时分秒帧 (hmsf) 格式表示时间戳。
- 智能体数据: 收集移动、Web 和桌面平台的屏幕截图,并使用合成数据引擎生成屏幕截图标题和 UI 元素接地注释。
其中最值得注意的特性是目标检测任务使用了绝对位置坐标,以及视频数据训练中进行动态采样FPS(Frames per second),目的是为了增强VLM的空间和时间理解能力。
后训练
Qwen2.5-VL 的后训练采用包含监督微调 (SFT) 和直接偏好优化 (DPO) 的双阶段优化范式,ViT的参数在整个后训练阶段都是冻结的。
-
监督微调 (SFT)
SFT阶段用到的instruction data包含约 200 万条数据,50% 为纯文本数据,50% 为多模态数据(图文和视频文本)。在数据过滤流程中,先使用 Qwen2-VL-Instag (一个基于Qwen2-VL的分类模型)将 QA 对分层分类为 8 个主要领域和 30 个细粒度子类别,然后对于这些细分类别,使用领域定制过滤,结合基于规则和基于模型的过滤方法。
- 基于规则的过滤: 删除重复模式、不完整或格式错误的条目,以及不相关或可能导致有害输出的查询和答案。
- 基于模型的过滤: 使用 Qwen2.5-VL 系列训练的奖励模型评估多模态 QA 对。
此外,在训练中还使用拒绝采样 (Rejection Sampling)技术,增强模型的推理能力。使用一个中间版本的 Qwen2.5-VL 模型,对带有标注(ground truth)的数据集生成响应,将模型生成的响应与标注的正确答案进行比较,只保留模型输出与正确答案匹配的样本,丢弃不匹配的样本。此外还进一步过滤掉不理想的输出,例如:代码切换 (code-switching)、过长 (excessive length)、重复模式 (repetitive patterns)等。通过这种方式,确保数据集中只包含高质量、准确的示例。
-
直接偏好优化 (DPO):
介绍的不是特别的详细,没看懂,仅使用图文和纯文本数据,不使用视频数据,利用偏好数据将模型与人类偏好对齐。
参考文献
-
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond,https://arxiv.org/pdf/2308.12966
-
Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution,https://arxiv.org/pdf/2409.12191
-
Qwen2.5-VL Technical Report,https://arxiv.org/abs/2502.13923