将视觉与语言的智能融合,已经在视觉语言模型(Vision-Language Models,简称VLMs)领域实现了重大突破。这些模型致力于同步处理和解释视觉与文本数据,从而使得图像描述、视觉问题回答、光学字符识别(Optical Character Recognition,简称OCR)以及多模态内容分析等应用成为现实。通过连接这两种数据模式之间的桥梁,VLMs在开发自主系统、增强人机交互以及高效文档处理工具方面扮演着至关重要的角色。然而,如何同时处理高分辨率视觉数据和多样化文本输入的复杂性,仍然是该领域面临的主要挑战。
现有的研究通过采用静态视觉编码器来应对这些限制,这些编码器缺乏对高分辨率和可变输入大小的适应性。与视觉编码器一同使用的预训练语言模型通常效率不高,因为它们并未针对多模态任务进行优化。尽管一些模型采用了稀疏计算技术来管理复杂性,但它们经常需要在多样化的数据集上提高准确性。此外,这些模型中使用的训练数据集通常需要更多的多样性和任务特定的细节,这进一步限制了性能。 例如,由于这些限制,许多模型在图表解释或密集文档分析等专业任务中表现不佳。
DeepSeek-AI的研究人员引入了DeepSeek-VL2系列,这是新一代开源的专家混合(Mixture-of-Experts,简称MoE)视觉语言模型。这些模型采用了尖端创新技术,包括动态平铺视觉编码、用于语言任务的多头潜在注意力机制,以及DeepSeek-MoE框架。DeepSeek-VL2提供了三种配置,具有不同的激活参数(激活参数指的是在特定任务或计算期间动态使用的模型参数的子集):
-
DeepSeek-VL2-Tiny,拥有33.7亿参数(10亿激活参数)
-
DeepSeek-VL2-Small,拥有161亿参数(28亿激活参数)
-
DeepSeek-VL2,拥有275亿参数(45亿激活参数)
这种可扩展性确保了对各种应用需求和计算预算的适应性。
DeepSeek-VL2的架构旨在优化性能,同时最小化计算需求。动态平铺方法确保高分辨率图像的处理不会丢失关键细节,这在文档分析和视觉定位任务中特别有效。此外,多头潜在注意力机制使模型能够有效地处理大量文本数据,减少了通常与处理密集语言输入相关的计算开销。DeepSeek-MoE框架仅在任务执行期间激活参数子集,进一步提高了可扩展性和效率。 DeepSeek-VL2的训练包括一个多样化和全面的多模态数据集,使模型能够在各种任务中表现出色,包括光学字符识别(OCR)、视觉问题回答和图表解释。
在性能检查时,例如,小型配置在OCR任务上达到了令人印象深刻的92.3%的准确率,显著超越了现有模型。在视觉定位基准测试中,模型的精确度比前身提高了15%。此外,DeepSeek-VL2显示出了显著的效率,所需的计算资源比同类模型少了30%,同时保持了最先进的准确率。 结果还突出了模型在跨任务泛化方面的能力,其标准变体在多模态推理基准测试中取得了领先的分数。这些成就强调了所提出的模型在解决与高分辨率图像和文本处理相关的挑战方面的有效性。
DeepSeek-VL2模型系列的几个要点如下:
-
通过将高分辨率图像划分为较小的平铺,模型改善了特征提取并减少了计算开销。这种方法对于密集文档分析和复杂的视觉布局非常有用。
-
提供微型(3B)、小型(16B)和标准型(27B)配置,确保了对各种应用的适应性,从轻量级部署到资源密集型任务。
-
使用包含OCR和视觉定位任务的全面数据集增强了模型的泛化能力和任务特定性能。
-
稀疏计算框架仅激活必要的参数,实现了在不牺牲准确度的情况下降低计算成本。
可以看下Hugging Face公布了这些模型
总之,DeepSeek-VL2是一个开源的视觉语言模型系列,有三个变体(1.8B、2.8B和4.5B激活参数)。 研究团队引入了一个在实际应用中表现出色的模型系列,通过解决可扩展性、计算效率和任务适应性方面的关键限制。其创新的动态平铺和多头潜在注意力机制使精确的图像处理和高效的文本处理成为可能,在OCR和视觉定位等任务中取得了最先进的结果。 该模型系列以可扩展的配置和全面的多模态数据集为人工智能性能树立了新的标准。