DeepSeek-AI 开源 DeepSeek-VL2 系列,采用专家混合(MoE)架构,重新定义视觉语言人工智能

server/2024/12/19 2:39:27/

将视觉与语言的智能融合,已经在视觉语言模型(Vision-Language Models,简称VLMs)领域实现了重大突破。这些模型致力于同步处理和解释视觉与文本数据,从而使得图像描述、视觉问题回答、光学字符识别(Optical Character Recognition,简称OCR)以及多模态内容分析等应用成为现实。通过连接这两种数据模式之间的桥梁,VLMs在开发自主系统、增强人机交互以及高效文档处理工具方面扮演着至关重要的角色。然而,如何同时处理高分辨率视觉数据和多样化文本输入的复杂性,仍然是该领域面临的主要挑战。

现有的研究通过采用静态视觉编码器来应对这些限制,这些编码器缺乏对高分辨率和可变输入大小的适应性。与视觉编码器一同使用的预训练语言模型通常效率不高,因为它们并未针对多模态任务进行优化。尽管一些模型采用了稀疏计算技术来管理复杂性,但它们经常需要在多样化的数据集上提高准确性。此外,这些模型中使用的训练数据集通常需要更多的多样性和任务特定的细节,这进一步限制了性能。 例如,由于这些限制,许多模型在图表解释或密集文档分析等专业任务中表现不佳。

DeepSeek-AI的研究人员引入了DeepSeek-VL2系列,这是新一代开源的专家混合(Mixture-of-Experts,简称MoE)视觉语言模型这些模型采用了尖端创新技术,包括动态平铺视觉编码、用于语言任务的多头潜在注意力机制,以及DeepSeek-MoE框架。DeepSeek-VL2提供了三种配置,具有不同的激活参数(激活参数指的是在特定任务或计算期间动态使用的模型参数的子集):

  1. DeepSeek-VL2-Tiny,拥有33.7亿参数(10亿激活参数)

  2. DeepSeek-VL2-Small,拥有161亿参数(28亿激活参数)

  3. DeepSeek-VL2,拥有275亿参数(45亿激活参数)

这种可扩展性确保了对各种应用需求和计算预算的适应性。

 

图片

 

DeepSeek-VL2的架构旨在优化性能,同时最小化计算需求。动态平铺方法确保高分辨率图像的处理不会丢失关键细节,这在文档分析和视觉定位任务中特别有效。此外,多头潜在注意力机制使模型能够有效地处理大量文本数据,减少了通常与处理密集语言输入相关的计算开销。DeepSeek-MoE框架仅在任务执行期间激活参数子集,进一步提高了可扩展性和效率。 DeepSeek-VL2的训练包括一个多样化和全面的多模态数据集,使模型能够在各种任务中表现出色,包括光学字符识别(OCR)、视觉问题回答和图表解释。

 

图片

 

在性能检查时,例如,小型配置在OCR任务上达到了令人印象深刻的92.3%的准确率,显著超越了现有模型。在视觉定位基准测试中,模型的精确度比前身提高了15%。此外,DeepSeek-VL2显示出了显著的效率,所需的计算资源比同类模型少了30%,同时保持了最先进的准确率。 结果还突出了模型在跨任务泛化方面的能力,其标准变体在多模态推理基准测试中取得了领先的分数。这些成就强调了所提出的模型在解决与高分辨率图像和文本处理相关的挑战方面的有效性。

 

图片

 

DeepSeek-VL2模型系列的几个要点如下:

  1. 通过将高分辨率图像划分为较小的平铺,模型改善了特征提取并减少了计算开销。这种方法对于密集文档分析和复杂的视觉布局非常有用。

  2. 提供微型(3B)、小型(16B)和标准型(27B)配置,确保了对各种应用的适应性,从轻量级部署到资源密集型任务。

  3. 使用包含OCR和视觉定位任务的全面数据集增强了模型的泛化能力和任务特定性能。

  4. 稀疏计算框架仅激活必要的参数,实现了在不牺牲准确度的情况下降低计算成本。

 

图片

 

可以看下Hugging Face公布了这些模型

图片

总之,DeepSeek-VL2是一个开源的视觉语言模型系列,有三个变体(1.8B、2.8B和4.5B激活参数)。 研究团队引入了一个在实际应用中表现出色的模型系列,通过解决可扩展性、计算效率和任务适应性方面的关键限制。其创新的动态平铺和多头潜在注意力机制使精确的图像处理和高效的文本处理成为可能,在OCR和视觉定位等任务中取得了最先进的结果。 该模型系列以可扩展的配置和全面的多模态数据集为人工智能性能树立了新的标准。


http://www.ppmy.cn/server/151329.html

相关文章

ChatGPT崩溃引发行业震动:智能化之路需多元发展

今晨,当我如常打开ChatGPT,准备开始一天的工作时,却遭遇了令人措手不及的崩溃。起初,我还天真地以为这只是区域性的网络波动或是账号的小故障,于是费尽心思地清除浏览器缓存、cookies,甚至尝试更换区域设置…

大数据新视界 -- 大数据大厂之 Impala 性能飞跃:动态分区调整的策略与方法(上)(21 / 30)

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

ElasticSearch 数据聚合与运算

1、数据聚合 聚合(aggregations)可以让我们极其方便的实现数据的统计、分析和运算。实现这些统计功能的比数据库的 SQL 要方便的多,而且查询速度非常快,可以实现近实时搜索效果。 注意: 参加聚合的字段必须是 keywor…

【linux】shell(37)-脚本调试

1. 使用 Shell 调试选项 Shell 提供了多种调试选项,可以用于检查脚本的语法和执行过程。 1.1 -n 选项 作用:读取脚本但不执行,用于检查脚本的语法错误。 用法: bash -n script.sh示例: #!/bin/bash echo "H…

QT数据库(四):QSqlRelationalTableModel 类

关系数据库概念 例如下列departments、majors、studInfo 这 3 个数据表之间存在关系。 主键与外键 标记“**”的是主键字段,标记“*”的是外键字段。主键字段是一个数据表中表示记录唯一性的字段,例如 studInfo 数据表中的 studID 字段。外键字段是与其…

Mac gfortran编译fortran出错

Mac gfortran编译fortran出错提示: ld: unsupported tapi file type !tapi-tbd in YAML file /Library/Developer/CommandLineTools/SDKs/MacOSX15.sdk/usr/lib/libSystem.tbd for architecture x86_64 collect2: error: ld returned 1 exit status 解决办法&…

Node的学习以及学习通过Node书写接口并简单操作数据库

Node的学习 Node的基础上述是关于Node的一些基础,总结的还行; 利用Node书写接口并操作数据库 1. 初始化项目 创建新的项目文件夹,并初始化 package.json mkdir my-backend cd my-backend npm init -y2. 安装必要的依赖 安装Express.js&…

Web项目图片视频加载缓慢/首屏加载白屏

Web项目图片视频加载缓慢/首屏加载白屏 文章目录 Web项目图片视频加载缓慢/首屏加载白屏一、原因二、 解决方案2.1、 图片和视频的优化2.1.1、压缩图片或视频2.1.2、 选择合适的图片或视频格式2.1.3、 使用图片或视频 CDN 加速2.1.4、Nginx中开启gzip 三、压缩工具推荐 一、原因…