突破视觉理解极限,Qwen2-VL重磅登场

news/2025/3/28 8:46:48/

前沿科技速递🚀

经过近一年的持续努力,Qwen团队宣布推出最新一代的视觉语言模型:Qwen2-VL。基于Qwen2的基础,Qwen2-VL在多个方面实现了显著提升,相较于前代模型Qwen-VL,它具备以下核心优势:

1. 适应不同分辨率与长宽比的图片:Qwen2-VL在MathVista、DocVQA、RealWorldQA、MTVQA等多个视觉理解基准测试中展现了全球领先的表现。无论是高分辨率还是非标准长宽比的图片,Qwen2-VL都能轻松读懂。

2. 支持长达20分钟以上的视频理解:Qwen2-VL不仅可以理解长视频,还能应用于基于视频的问答、对话和内容创作等多种场景,使其在处理复杂多媒体内容时表现卓越。

3. 操作智能设备:Qwen2-VL的复杂推理与决策能力使其能够作为手机或机器人等设备的视觉智能体,根据视觉环境和文字指令进行自动化操作。

4. 多语言支持:为了更好地服务全球用户,Qwen2-VL不仅支持英语和中文,还新增了对大多数欧洲语言、日语、韩语、阿拉伯语、越南语等多语言文本的理解能力。

来源:传神社区

01 模型开源与性能表现

Qwen团队以Apache 2.0协议开源了Qwen2-VL-2B和Qwen2-VL-7B,同时发布了Qwen2-VL-72B的API。开源代码已集成到Hugging Face Transformers、vLLM和其他第三方框架中,为开发者提供了便捷的使用体验。

在六个关键指标上,Qwen2-VL展现了卓越的视觉能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解及智能代理功能。尤其是在文档理解方面,Qwen2-VL-72B表现尤为出色,超过了GPT-4o和Claude3.5-Sonnet等闭源模型。尽管在综合大学题目方面还有一定差距,Qwen2-VL-72B依然刷新了开源多模态模型的最佳记录。

图片

在 7B 规模上,同样支持图像、多图、视频的输入,在更经济的规模上也实现了有竞争力的性能表现,特别是像 DocVQA 之类的文档理解能力和 MTVQA 考察的图片中多语言文字理解能力都处于 SOTA 水平。

图片

除此之外,Qwen团队还提供了一个更小的 2B 规模的模型,以此支持移动端的丰富应用。它具备完整图像视频多语言的理解能力,性能强劲,特别在视频文档和通用场景问答相较同规模模型优势明显。

图片

02 模型架构的创新

Qwen2-VL延续了Qwen-VL中的ViT加Qwen2的串联结构,并在架构上进行了重要升级:

1. 原生动态分辨率支持Qwen2-VL能够处理任意分辨率的图像输入,并将不同大小的图片转换为动态数量的tokens。这种设计确保了输入与图像原始信息之间的高度一致性,模拟了人类视觉感知的自然方式。

图片

2. 多模态旋转位置嵌入(M-ROPE)Qwen2-VL通过多模态旋转位置嵌入,将原始旋转嵌入分解为时间、高度和宽度三个部分,使其能够同时捕捉和整合一维文本序列、二维视觉图像及三维视频的位置信息,从而更好地处理和推理复杂的多模态数据。

图片

03 典型示例

1. 更细致的识别与理解Qwen2-VL不仅能识别植物和地标,还能理解场景中多个对象之间的关系。特别是在手写文字及多语言图像识别方面,Qwen2-VL在全球范围内更为易用。

Example: Plant identification

图片

2. 视觉推理与现实问题解决Qwen2-VL的数学与编程能力得到了显著增强。通过分析图片,Qwen2-VL能够解读复杂的数学问题,进行图表分析,甚至极端长宽比的图片也能正确解析。它还可以从真实世界的图像和图表中提取信息,使其成为日常生活中的智能助手。

Example: Math

图片

3. 视频理解与实时聊天Qwen2-VL扩展了视频内容分析的能力,能够总结视频要点、即时回答相关问题,并维持连贯的对话,仿佛一位随时待命的个人助手,为用户提供更加直观且即时的帮助。

Example: Video Understanding

图片

space_woaudio

图片

4. Visual Agent 能力Qwen2-VL展示了作为视觉代理的潜力,初步具备了利用视觉能力进行工具调用与交互的功能。通过函数调用,Qwen2-VL能够实时检索数据,如航班状态、天气预报和包裹追踪等,将视觉解读与功能执行有机结合,成为信息管理和决策的有力工具。

  • Function Calling:模型支持函数调用,使其能够利用外部工具进行实时数据检索——无论是航班状态、天气预报还是包裹追踪——通过解读视觉线索。视觉解读与功能执行的整合提升了模型的实用性,使其成为信息管理和决策的有力工具。

  • Visual Interactions: 视觉交互对多模态大模型是更高的感知能力要求。我们初步做了一些简单的探索,让模型能够更像人一样和环境交互。使得 Qwen2-VL 不仅作为观察者,而是能有代替人做更多的执行者的可能。

Operate a Mobile Phone

04 模型下载

传神社区:

Qwen2-VL-2B-Instruct:

https://opencsg.com/models/Qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct:

https://opencsg.com/models/Qwen/Qwen2-VL-7B-Instruct

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验


http://www.ppmy.cn/news/1520851.html

相关文章

风塔市场研究:未来几年年复合增长率CAGR为6.4%

塔架是风力涡轮机结构中的一个重要部件。它将载荷从机舱传递到地基,是决定盈利能力的重要因素:塔架越高,能量输出越高。 据QYResearch调研团队最新报告“全球风塔市场报告2024-2030”显示,预计2030年全球风塔市场规模将达到152.9亿…

如何修复软件中的BUG

笔者上一篇博文《如何开发出一款优秀的软件》主要讲了如何开发一款优秀的软件及相应的必要条件。但对一个已上线,已经成型的产品,该如何解决存在的bug呢?这是本文要阐述的内容。 在这里,首先说一下bug的种类及bug严重程度分类&…

MATLAB 中的 reshape 函数

在 MATLAB 中,矩阵和数组的处理是核心任务之一,而 reshape 函数是进行数据重组时的一个重要工具。无论你是在进行数据分析、信号处理还是算法开发,reshape 都能帮助你以灵活的方式重新组织数据。本文将详细介绍 reshape 函数的使用方法、注意…

java反射获取方法参数名、参数类型

package com.hx.utils;import com.hx.bean.Student; import org.springframework.core.LocalVariableTableParameterNameDiscoverer;import java.lang.reflect.*;/*** 反射应用*/ public class MyReflect {public static void main(String[] args) { // cancelAccess();…

猴子采集:实时数据采集,正在拼采集,类目采集,整店采集

图片:玉溪 文章:云长 作者:yunchang227 猴子采集核心功能亮点 : 一:无限自动采集 通过先进的算法和技术,猴子采集可以实现无限自动采集,彻底解放你的双手。只需设置好相关参数,…

《javaEE篇》--线程池

线程池是什么 线程的诞生是因为进程创建和销毁的成本太大,但是也是相对而言,如果频繁的创建和销毁线程那么这个成本就不能忽略了。 一般有两种方法来进一步提高效率,一种是协程(这里不多做讨论),另一种就是线程池 假如说有一个学校食堂窗口…

MCU官方IDE软件安装及学习教程集合 — STM32CubeIDE(STM32)

简介 各MCU厂商为保证产品的市场地位以及用户体验,不断的完善自己的产品配套,搭建自己的开发生态,像国外ST公司,国内的GD(兆易创新),AT(雅特力)等等。目前就开发生态而言…

数据结构(邓俊辉)学习笔记】串 10——BM_BC算法:坏字符

文章目录 1.坏字符2. 特殊情况 1.坏字符 实际上,刚才的实例中我们所展示的那样一个计算过程,就是所谓 BM 算法所采用的策略之一,而这一策略,将我们刚才所说的教训称作坏字符。 在这里,不妨改为基于蛮力算法的第二个版…