NVLM多模态 LLM 在图像和语言任务中的表现优于 GPT-4o

news/2024/10/3 15:53:34/

论文地址:https://arxiv.org/pdf/2409.11402
背景

传统的多模态 LLM 有两种主要方法:纯解码器架构(如 LLaVA)和基于交叉注意力的架构(如 Flamingo)。混合架构,既提高了训练效率,又增强了多模态推理能力。

论文还介绍了一种名为 "1-D 瓦片标签设计 "的新技术,它能以瓦片格式处理高分辨率图像。这大大提高了 OCR(光学字符识别)相关任务和多模态推理能力。

此外,还详细介绍了多模态预训练和监督微调数据集,表明数据质量和任务多样性比规模更重要。

技术

NVLM 1.0 的主要特点是它是一个具有三种不同架构的模型系列。它们分别是纯解码器 NVLM-D、基于交叉注意的 NVLM-X 和混合架构 NVLM-H,后者结合了两种架构的优点。这种组合可确保每个模型在不同类型的任务中发挥最佳性能。

NVLM-D 直接在纯解码器网络中处理视觉特征,提供统一的推理能力。另一方面,NVLM-X 利用交叉注意有效捕捉视觉信息,使其在处理高分辨率图像时更具优势。最后,NVLM-H 在解码器层处理缩略图信息,在交叉注意层处理其他平铺图像信息,从而在利用两者优势的同时提高了计算效率。

此外,NVLM 1.0 还引入了一种处理高分辨率图像的方法,称为 “1-D 瓦片标签设计”。这种方法将图像分为多个瓦片,并为每个瓦片贴上标签,以便模型识别,从而显著提高了 OCR 相关任务的准确性。

这些设计和数据方面的创新使 NVLM 1.0 不仅在视觉和语言任务中表现出很高的性能,而且在纯文本任务中的表现也优于以前的模型。

试验

本文的实验在多个基准上进行了测试,以评估 NVLM 1.0 模型的性能。实验主要集中在视觉与语言相结合的任务和纯文本任务上。分别使用了不同架构的模型(NVLM-D、NVLM-X 和 NVLM-H),以比较不同模型的能力。

首先,我们使用了几个基准来评估视觉和语言相结合的任务。具体来说,这些基准包括需要复杂推理的多模态推理(MMMU)、涉及数学推理的视觉情境问题(MathVista)、图像理解(VQAv2)和评估 OCR 能力的 OCRBench。这些测试验证了每个模型在不同类型任务中的表现。

NVLM-D 模型的准确率很高,特别是在 OCR 任务和图像理解方面,比其他模型更具优势。另一方面,NVLM-X 模型利用交叉注意提高了处理高分辨率图像的效率,在推理速度和准确性方面都表现出了卓越的效果;NVLM-H 模型采用了解码器和交叉注意相结合的设计,其表现优于其他模型,尤其是在数学推理和复杂视觉问题方面。NVLM-H模型的特点是结合了解码器和交叉注意的设计,其表现优于其他模型,尤其是在数学推理和复杂视觉问题方面。

我们还在纯文本任务中对这些模型进行了评估,以研究多模态训练后它们的纯文本成绩是否会下降。结果显示,经过训练后,NVLM 模型在文本任务中的表现保持不变,甚至有所提高。

实验结果表明,NVLM 1.0 在视觉和语言任务上的表现都非常出色,尤其是在 OCR 任务和需要复杂推理的场景上。

总结

论文的结论指出,NVLM 1.0 在各种任务中都表现出很高的性能,为多模态大规模语言建模开辟了新的可能性。特别是在需要整合视觉和语言的任务上,NVLM 1.0 的性能达到或超过了其他最先进模型的性能。

总的来说,NVLM 1.0 所显示的结果为广泛的应用提供了灵活而强大的解决方案,特别是扩大了其对同时处理视觉和语言的高级任务的可用性。我们希望这项研究能为未来多模态模型的发展做出贡献,并希望已发布的模型权重和代码能促进进一步的研究和应用。


http://www.ppmy.cn/news/1533988.html

相关文章

RISC-V开发 linux下GCC编译自定义指令流程笔记

第一步:利用GCC提供了内嵌汇编的功能可以在C代码中直接内嵌汇编语言 第二步:利用RSIC-V的中的.insn模板进行自定义指令的插入 第三步:RISC-V开发环境的搭建 C语言插入汇编 GCC提供了内嵌汇编的功能可以在C代码中直接内嵌汇编语言语句方便了…

ansible 配置

目录 1.集群自动化维护工具 ansible 2.ansible管理架构 3.安装ansible 4.Iventory主机模式 5.通过ping验证 6.ansible常用模块 7.命令行模块 7.1command模块 7.2shell模块 7.3scripts模块 7.4file模块 7.5copy模块​ 7.6yum模块 1.集群自动化维护工具 ansibl…

Hive数仓操作(三)

一、Hive 数据库操作 1. 创建数据库 基本创建数据库命令: CREATE DATABASE bigdata;说明: 数据库会在 HDFS 中以目录的形式创建和保存,数据库名称会存储在 Hive 的元数据中。如果不指定目录,数据库将在 /user/hive/warehouse 下…

从原理到代码:如何通过 FGSM 生成对抗样本并进行攻击

从原理到代码:如何通过 FGSM 生成对抗样本并进行攻击 简介 在机器学习领域,深度神经网络的强大表现令人印象深刻,尤其是在图像分类等任务上。然而,随着对深度学习的深入研究,研究人员发现了神经网络的一个脆弱性&…

react 状态管理

Redux Redux是React中常用的状态管理组件,类似于Vue中的Pinia(Vuex),可以独立于框架运行 作用: 通过集中管理的方式管理应用的状态 配套工具 在react中使用redux,官方要求按照两个插件,Redux Toolkit 和 react-red…

some 蓝桥杯题

12.反异或01串 - 蓝桥云课 (lanqiao.cn) #include "bits/stdc.h" #define int long long using namespace std; char c[10000000]; char s[10000000]; int cnt,Ans,mr,mid; int maxi; int p[10000000],pre[10000000]; signed main() {ios::sync_with_stdio(0);cin.t…

Python 封装 socket 为 [TCP/UDP/MULTICAST] 客户端

发送 TCP/UDP/MULTICAST 数据并接收响应。 #!/usr/bin/env python # -*- coding: utf-8 -*- import socketclass ClientSocket:def __init__(self, *, protocol: str, ip: str, port: int, recv_timeout: float 1.5):"""客户端套接字发送 TCP/UDP/MULTICAST 数…

【嵌入式裸机开发】智能家居入门3(MQTT服务器、MQTT协议、微信小程序、STM32)

前面已经写了两篇博客关于智能家居的,服务器全都是使用ONENET中国移动,他最大的优点就是作为数据收发的中转站是免费的。本篇使用专门适配MQTT协议的MQTT服务器,有公用的,也可以自己搭建 前言一、项目总览二、总体流程分析1、了解…