Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models
目录
1. 引言
2. 本文贡献
3. 方法
3.1 现有高分辨率图像处理方法
3.2 全局语义引导权重分配(GSWA)
4. 实验结果
4.1 通用基准测试
4.2 真实世界场景测试
4.3 文字识别(OCR)和文本丰富VQA任务
4.4 幻觉检测与科学知识评测
4.5 消融实验
5. 限制与未来工作
5.1 现有问题
5.2 未来改进方向
6. 结论
1. 引言
近年来,大型视觉语言模型(LVLMs) 在跨模态理解任务中取得了显著进展。然而,高分辨率图像 含有丰富的细节信息,而现有的LVLMs受限于固定分辨率的视觉编码器,导致处理高分辨率图像时信息损失严重。
为了应对这一挑战,子图划分(sub-image partitioning) 成为主流方法之一。然而,传统的子图划分方法对所有子图一视同仁,未能充分利用图像的信息密度分布,从而影响模型的整体理解能力。本文提出了一种新颖的 全局语义引导的权重分配模块(Global Semantic-guided Weight Allocator,GSWA),通过模拟人类视觉注意机制,为信息密集的子图分配更高的权重,以优化视觉信息处理能力。
2. 本文贡献
本文的核心贡献包括:
提出子图信息密度分析:研究表明,不同子图对整体图像的语义贡献不同,信息密集的子图对于模型理解起关键作用。
设计了 GSWA 模块:该模块基于自注意力机制(Self-Attention),动态调整子图权重,使模型更关注语义相关性高的区域。
构建 SleighVL 模型:该模型基于 InternVL2-2B,集成了 GSWA 模块,在多个基准测试中表现优越。
全面的实验评估:SleighVL 在 MME、OCRBench、TextVQA、RealWorldQA 等多项测试中取得了领先性能。
3. 方法
3.1 现有高分辨率图像处理方法
传统的高分辨率图像处理主要包括:
训练高分辨率视觉编码器:计算量大,训练成本高。
使用多个编码器:架构冗余,计算资源消耗高。
子图划分:更具可扩展性,但现有方法未能考虑信息密度差异。
3.2 全局语义引导权重分配(GSWA)
GSWA 模块的核心思想:
1)信息密度计算:
- 采用 Vision Transformer(ViT) 计算子图的全局语义相关性。
- 计算子图 token 与全局图像的语义相似度。
2)动态权重分配:
- 通过 自注意力机制 计算每个子图的重要性,分配更高的权重给关键区域。
- 避免信息密集区域被平等对待,从而提升模型的整体视觉理解能力。
3)模型架构 SleighVL 主要由以下部分组成:
- 动态裁剪模块:自适应调整子图尺寸,保持原始长宽比。
- InternViT 视觉编码器:提取子图特征。
- GSWA 模块:分配子图权重,提高视觉信息整合能力。
- 视觉-语言投影层:对齐视觉和文本特征,以便传输至大型语言模型(LLM)。
- InternLM2-1.8B 语言模型:进行跨模态信息融合和文本生成。
4. 实验结果
4.1 通用基准测试
SleighVL 在多项主流基准测试中表现优异:
MME(多模态评测): 得分 1913(优于 InternVL2-2B 的 1876)。
MMB CN & SEED Benchmarks:在多个多模态任务中超越其他 SOTA 模型。
4.2 真实世界场景测试
SleighVL 在 RealWorldQA、HRBench4K、HRBench8K 等高分辨率图像任务中表现出色:
RealWorldQA:SleighVL 取得 57.8 分,超过 InternVL2-2B(57.2)。
HRBench4K/8K:在处理 4K 和 8K 图像时,SleighVL 仍保持较强的性能。
4.3 文字识别(OCR)和文本丰富VQA任务
SleighVL 在 OCR 相关任务(如 OCRBench、TextVQA、DocVQA)中展现强劲的文本识别和理解能力:
OCRBench:SleighVL 得分 803,高于 InternVL2-2B(784)。
TextVQA:SleighVL 得分 75.9,优于 MiniCPM-V2(74.1)。
DocVQA:SleighVL 得分 87.1,接近 LLaVA-OneVision-7B(87.5)。
4.4 幻觉检测与科学知识评测
POPE(幻觉检测):SleighVL 得分 87.8,展现了强大的稳定性。
科学 VQA(AI2D & ScienceQA):SleighVL 在科学推理任务中取得领先成绩。
4.5 消融实验
为了验证 GSWA 模块的有效性,作者进行了以下消融实验:
GSWA 替换为简单的余弦相似度 → MME 下降 2.39%。
GSWA 替换为 Cross-Attention → MME 下降 0.84%。
去除 GSWA 直接微调 InternVL2-2B → MME 下降 3.49%。
结论: GSWA 模块的自注意力机制在子图权重分配方面比其他方法更具优势,有效提升了模型在高分辨率图像处理中的性能。
5. 限制与未来工作
5.1 现有问题
计算量增加:
- 子图划分会增加视觉 tokens 数量,提高推理和训练成本。
- GSWA 模块本身引入了额外的计算需求。
缺乏文本信息的引导:当前 GSWA 仅基于视觉信息,而未结合文本信息进行权重优化,可能导致某些任务中信息对齐问题。
5.2 未来改进方向
引入文本引导权重分配:结合语言输入优化 GSWA,使子图权重分配更加符合任务需求。
视觉 token 压缩技术:在低信息密度区域减少 token 计算,以降低计算成本,提高推理速度。
6. 结论
本文提出了一种全局语义引导的子图权重分配方法(GSWA),有效解决了 LVLMs 在处理高分辨率图像 时的信息丢失和视觉注意力分散问题。GSWA 通过 自注意力机制 计算子图信息密度,动态调整权重,优化视觉信息融合能力。
实验结果表明,集成GSWA的SleighVL模型在多项基准测试中均取得领先成绩,尤其是在 高分辨率图像理解、OCR任务、文本丰富VQA 领域展现了卓越性能。
尽管GSWA方法仍有计算成本和文本引导优化的空间,但它为 高效、高分辨率多模态学习 提供了新的方向,具有重要的研究价值。
论文地址:https://arxiv.org/abs/2501.14276
进 Q 学术交流群:922230617