Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节

devtools/2025/3/26 5:31:03/

记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。

系列模型的应用场景:

  • Qwen-VL:基础图像理解和对话。
  • Qwen2-VL:图像+短视频理解,代理任务。
  • Qwen2.5-VL:长视频、复杂文档解析、多语言支持,适用于更广泛的现实场景。

模型架构演进一览(其实差不多,有一些细节改动):

模型大型语言模型 (LLM)视觉编码器 (ViT)视觉-语言连接机制位置编码
Qwen-VLQwen-7BViT-bigG(OpenClip 初始化),固定分辨率 448×448位置感知 VL Adapter(256 查询,交叉注意力)2D 绝对位置编码
Qwen2-VLQwen2ViT(DFN 初始化),动态分辨率支持,最大 16384 标记MLP 压缩(2×2 标记合并)2D-RoPE + M-RoPE(多模态
Qwen2.5-VLQwen2.5重新设计 ViT,原生分辨率,窗口注意力,3D patchMLP 压缩(4 patch 合并)2D-RoPE + MRoPE(绝对时间)

一、Qwen-VL

模型架构

  1. 大型语言模型(LLM):Qwen-7B

  2. 视觉编码器:采用Vision Transformer(ViT)架构,初始化权重来自OpenClip的ViT-bigG。

    • 输入处理:输入图像被调整到特定分辨率,然后被分割成固定大小的patch。
    • 特征提取:ViT通过自注意力机制来捕捉图像中的全局和局部信息,生成一组图像特征。
  3. 位置感知的视觉-语言适配器:为了缓解长图像特征序列带来的效率问题,Qwen-VL引入了一个视觉-语言适配器。这个适配器的作用是将图像特征序列压缩到一个固定长度(例如256),以便更好地与语言模型结合。

    • 压缩机制:适配器包含一个单层交叉注意力模块,使用可学习的查询向量对图像特征进行压缩。
    • 位置信息:为了保持位置信息的完整性,适配器在交叉注意力机制中使用2D绝对位置编码。
  4. 输入和输出

  • 图像输入:图像通过视觉编码器和适配器处理后,生成固定长度的图像特征序列。为了区分图像特征输入和文本特征输入,特殊标记( 和 )被添加到图像特征序列的开头和结尾。
  • 边界框输入和输出:为了增强模型的细粒度视觉理解能力,Qwen-VL支持边界框输入和输出。边界框通过标准化和字符串格式化处理,使用特殊标记( 和 )进行区分。

训练方法

训练过程分为三个阶段:两个预训练阶段和一个指令微调阶段。

阶段1 预训练
  • 目标:利用大规模、弱标注的图像-文本对数据训练模型,优化视觉编码器和视觉-语言适配器,同时冻结大型语言模型。
  • 数据集:从多个公开来源(如 LAION、DataComp、Coyo 等)和内部数据中收集 50 亿图像-文本对,清理后剩 14 亿(英语 77.3%,中文 22.7%)。数据清理后保留率 28%,数据集细节如下:

  • 训练细节
    • 输入图像分辨率: 224 × 224 224 \times 224 224×224
    • 训练目标:最小化文本标记的交叉熵。
    • 超参数:最大学习率 2 × 1 0 − 4 2 \times 10^{-4} 2×104,批量大小 30720,训练 50,000 步,处理约 15 亿样本。
阶段2 多任务预训练
  • 目标:引入高质量、细粒度标注数据,提升模型的多任务能力,解锁并训练整体模型。

  • 数据集:涵盖 7 个任务(说明、VQA、对齐、引用对齐、接地说明、OCR、纯文本自回归),数据来源包括 GRIT、Visual Genome、RefCOCO 等,以及内部数据和合成 OCR 数据,总计约 77M 样本。

  • 训练数据格式:

  • 训练细节

    • 视觉编码器分辨率提升至 448 × 448 448 \times 448 448×448,移除窗口和全局注意力机制。
    • 数据格式:交错图像-文本序列,长度 2048。
    • 训练目标与预训练阶段一致。
  • 改进:更高的分辨率减少信息丢失,任务多样性增强模型能力。

阶段3 SFT
  • 目标:通过指令微调提升 Qwen-VL 的指令遵循和对话能力,生成 Qwen-VL-Chat。

  • 数据集:使用 350k 指令调整数据,包括 LLM 自生成的图像说明/对话数据、手动标注和模型生成的定位/多图像理解数据,以及多模态和纯文本对话数据的混合。

  • 训练数据格式:

  • 训练细节:冻结视觉编码器,仅优化语言模型和适配器。

  • 结果:模型有效迁移定位和多图像理解能力至多种语言和问题类型,同时保持对话通用性。


超参数细节

三阶段训练超参数细节

二、Qwen2-VL

Qwen2-VL总体沿用了

模型架构

1. 视觉编码器:

沿用qwen-vl的形式视觉编码器ViT,但有如下几点改进:

  • 动态分辨率支持:Qwen2-VL引入了“Naive Dynamic Resolution”机制,允许模型动态地将不同分辨率的图像转换为不同数量的视觉tokens。这种灵活性使得模型能够更有效地处理各种分辨率的图像,而不会损失细节信息。

  • 2D-RoPE:为了更好地捕捉图像的空间信息,Qwen2-VL在ViT中引入了二维旋转位置嵌入(2D-RoPE)。传统的RoPE用于一维序列,而2D-RoPE则扩展到二维空间,能够同时捕捉图像的高度和宽度信息。

  • 压缩机制:在推理阶段,Qwen2-VL使用一个简单的多层感知机(MLP)层来压缩相邻的2x2标记为一个标记,以减少每个图像的视觉标记数量。有助于减少计算负担,同时保持模型的性能。

2. 多模态旋转位置嵌入(M-RoPE)

M-RoPE是Qwen2-VL的创新点,用于建模多模态输入的位置信息。传统的RoPE仅限于一维序列,而M-RoPE则扩展到多模态输入。实现方式如下:

  • 分解位置嵌入:M-RoPE将原始的旋转嵌入分解为三个组件:时间、高度和宽度。对于文本输入,这三个组件使用相同的位置ID,使其功能上等同于1D-RoPE。

  • 多模态应用:在处理图像时,时间ID保持不变,而高度和宽度组件根据标记在图像中的位置分配不同的ID。对于视频,时间ID随着每一帧的增加而递增,而高度和宽度组件的ID分配模式与图像相同。

3. 统一的图像和视频理解

Qwen2-VL采用混合训练方法,结合图像和视频数据进行训练,以确保模型在图像理解和视频理解方面的能力。训练策略如下:

  • 视频采样:为了尽可能完整地保留视频信息,Qwen2-VL每秒采样两帧视频。此外,使用3D卷积来处理视频输入,允许模型处理3D管状结构而不是2D补丁,从而能够处理更多的视频帧而不增加序列长度。

  • 动态调整分辨率:为了平衡长视频处理的计算需求和整体训练效率,Qwen2-VL动态调整每个视频帧的分辨率,限制每个视频的总标记数为16384。这种策略确保了模型在处理长视频时的效率和性能。

训练方法

阶段1:预训练

通过大量的图像-文本对,训练ViT以提取图像中的特征,并将其与文本信息相结合。
目标:专注于训练视觉Transformer(ViT)组件,以增强大型语言模型(LLM)的语义理解能力。
数据:使用大规模的图像-文本对数据集进行训练,以提高模型对图像语义的理解。

阶段2:全参数预训练

通过更广泛的数据集,训练模型在多种任务上的表现,特别是复杂的多模态任务。
目标:解锁所有参数并进行更广泛的数据训练,实现更全面的学习。
数据:引入更多样化的数据集,包括图像-文本对、OCR数据、交错图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。

阶段3:SFT

通过SFT,训练模型理解和执行各种指令的能力,特别是在多模态任务中。

  • 目标:冻结ViT参数,专门对LLM进行微调,优化其在指令遵循任务上的表现。
  • 数据:使用指令遵循数据集进行训练,涵盖纯文本对话数据和多模态对话数据。数据格式如下:

Qwen2.5-VL

模型架构

在Qwen2.5-VL中,模型的整体架构由三个主要组件构成:大型语言模型(LLM)、视觉编码器(Vision Encoder)和基于MLP的视觉-语言融合器。以下是对这些组件的详细解释:

  1. LLM:Qwen2.5 LLM

  2. 视觉编码器:采用重新设计的ViT架构。支持原生输入分辨率,同时加速整个视觉编码器的计算过程。

    • 2D-RoPE:用于有效地捕捉二维空间中的空间关系。
    • 窗口注意力:在大多数层中使用窗口注意力,以确保计算成本与patch数量成线性关系,而不是二次关系。这种设计允许模型在处理不同大小的图像时保持高效。
    • 动态采样:在训练过程中,图像的高度和宽度被调整为28的倍数,然后输入到ViT中。输入图像被分割成步长为14的patch,生成一组图像特征。
    • 3D patch划分:对于视频数据,两帧连续的图像被组合在一起,以减少输入到语言模型的标记数量。这种方法不仅保持了与传统架构的兼容性,还提高了处理顺序视频数据的效率。
  3. 基于MLP的视觉-语言融合器:为了应对长序列图像特征的效率挑战,Qwen2.5-VL采用了一种简单而有效的方法来压缩特征序列。首先,不直接使用ViT提取的原始补丁特征,而是将空间上相邻的四组patch特征进行分组。这些分组的特征随后被连接并通过一个两层的MLP进行处理,将其投影到与文本嵌入对齐的维度。这种方法不仅减少了计算成本,还提供了一种灵活的方式来动态压缩不同长度的图像特征序列。

训练方法

Qwen2.5-VL 整体的预训练分为三个阶段:

阶段1:预训练
  • 视觉预训练: 仅训练 ViT,使用图像标题、视觉知识和 OCR 数据。
  • 多模态预训练: 解冻所有模型参数,使用交错数据、VQA、视频、智能体等多种数据。
  • 长上下文预训练: 引入视频、智能体数据,并增加序列长度。

预训练数据着重通过各种策略提升了数据质量:

  • 交错图文数据: 通过数据评分和清洗流程,确保使用高质量、相关的交错数据。
  • 绝对位置坐标的grounding数据: 使用基于输入图像实际尺寸的坐标值来表示边界框和点,提高模型对真实世界尺度和空间关系的捕捉能力。
  • 文档全解析数据: 合成包含表格、图表、公式、图像、乐谱、化学式等多种元素的文档数据,并以 HTML 格式统一表示,实现多模态文档元素的无缝集成。
  • OCR 数据: 收集和整理来自不同来源的 OCR 数据,包括合成数据、开源数据和内部收集的数据,并支持多种语言。
  • 视频数据: 动态采样 FPS,构建长视频标题,并以秒和时分秒帧 (hmsf) 格式表示时间戳。
  • 智能体数据: 收集移动、Web 和桌面平台的屏幕截图,并使用合成数据引擎生成屏幕截图标题和 UI 元素接地注释。

其中最值得注意的特性是目标检测任务使用了绝对位置坐标,以及视频数据训练中进行动态采样FPS(Frames per second),目的是为了增强VLM的空间和时间理解能力。

后训练

Qwen2.5-VL 的后训练采用包含监督微调 (SFT) 和直接偏好优化 (DPO) 的双阶段优化范式,ViT的参数在整个后训练阶段都是冻结的。

  1. 监督微调 (SFT)

    SFT阶段用到的instruction data包含约 200 万条数据,50% 为纯文本数据,50% 为多模态数据(图文和视频文本)。在数据过滤流程中,先使用 Qwen2-VL-Instag (一个基于Qwen2-VL的分类模型)将 QA 对分层分类为 8 个主要领域和 30 个细粒度子类别,然后对于这些细分类别,使用领域定制过滤,结合基于规则和基于模型的过滤方法。

    • 基于规则的过滤: 删除重复模式、不完整或格式错误的条目,以及不相关或可能导致有害输出的查询和答案。
    • 基于模型的过滤: 使用 Qwen2.5-VL 系列训练的奖励模型评估多模态 QA 对。

    此外,在训练中还使用拒绝采样 (Rejection Sampling)技术,增强模型的推理能力。使用一个中间版本的 Qwen2.5-VL 模型,对带有标注(ground truth)的数据集生成响应,将模型生成的响应与标注的正确答案进行比较,只保留模型输出与正确答案匹配的样本,丢弃不匹配的样本。此外还进一步过滤掉不理想的输出,例如:代码切换 (code-switching)、过长 (excessive length)、重复模式 (repetitive patterns)等。通过这种方式,确保数据集中只包含高质量、准确的示例。

  2. 直接偏好优化 (DPO):

    介绍的不是特别的详细,没看懂,仅使用图文和纯文本数据,不使用视频数据,利用偏好数据将模型与人类偏好对齐。

参考文献

  • Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond,https://arxiv.org/pdf/2308.12966

  • Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution,https://arxiv.org/pdf/2409.12191

  • Qwen2.5-VL Technical Report,https://arxiv.org/abs/2502.13923


http://www.ppmy.cn/devtools/171261.html

相关文章

深入解析SQL2API平台:数据交互革新者

在数字化转型持续深入的当下,企业对数据的高效利用与管理的需求愈发迫切。SQL2API平台应运而生,成为助力企业突破数据交互困境的有力工具,特别是它由麦聪软件基于DaaS(数据即服务)产品创新衍生而来,备受业界…

数据结构十五、排序

一、插入排序 插入排序&#xff08;insertion sort&#xff09;类似于扑克牌的插牌过程&#xff0c;将待排序元素插入到已排序的序列中。 #include <iostream> using namespace std;const int N 1e5 10; int n; int a[N];void insert_sort() {for (int i 2;i < n;…

HBase Shell

以下是 **HBase Shell** 的常用命令总结&#xff0c;涵盖表管理、数据操作和常用工具&#xff0c;适合快速查阅和日常使用&#xff1a; --- ### **1. 进入与退出 HBase Shell** bash # 进入 HBase Shell&#xff08;确保 HBase 服务已启动&#xff09; hbase shell # 退出 S…

深度学习--链式法则

可以链接一个多元函数对其所有变量的偏导数的方式来计算梯度。 偏导计算示例&#xff1a; 设函数z f(x,y) 3x^2y 2xy^2 求z对x和y的偏导数 对x求偏导数 把y看作事常熟&#xff0c;对x求导数 3x2xy 2y^2 对y求偏导数 3x^2 2x x 3y^2 2.4.4 链式法则 用上吗的方法可能很难找…

【漫话机器学习系列】153.残差平方和(Residual Sum of Squares, RSS)

残差平方和&#xff08;RSS&#xff09;&#xff1a;机器学习中的误差衡量指标 在机器学习和统计建模中&#xff0c;衡量模型的拟合优劣是一个重要问题。残差平方和&#xff08;Residual Sum of Squares, RSS&#xff09;是一个常用的误差度量方法&#xff0c;它衡量了模型预测…

关于大模型中Prompt这一概念小记

大模型中的提示词&#xff08;Prompt&#xff09;深入解析 1. 什么是 Prompt&#xff1f; Prompt&#xff08;提示词&#xff09;是用户与大模型&#xff08;如 ChatGPT、GPT-4、Gemini、Claude&#xff09;交互时输入的指令、问题或文本片段。它引导模型生成符合用户需求的输…

基于Spring Boot的售楼管理系统的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…

python多线程和多进程的区别有哪些

python多线程和多进程的区别有七种&#xff1a; 1、多线程可以共享全局变量&#xff0c;多进程不能。 2、多线程中&#xff0c;所有子线程的进程号相同&#xff1b;多进程中&#xff0c;不同的子进程进程号不同。 3、线程共享内存空间&#xff1b;进程的内存是独立的。 4、同一…