Mini-Gemini: 探索多模态视觉语言模型的新境界

server/2024/10/21 15:32:09/

一、背景

        在数字化时代,人工智能的发展正以前所未有的速度推进。特别是在多模态学习领域,结合视觉和语言的能力已成为研究的热点。最近,一篇名为“Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models”的文章在arXiv上发表,为我们展示了一个简单而有效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。它即能直接提升图像感知能力,也能作为多模态环境下图像生成任务的前置prompt生成器。主要探索了如何增强图像全局感受野,以及探索了如何融合现有ocr工具来增强图像中文本感知能力。

论文:https://arxiv.org/pdf/2403.18814.pdf

代码:https://github.com/dvlab-research/MiniGemini

二、原理

本文的核心训练逻辑围绕Mini-Gemini框架的三个关键方面展开:高效的高分辨率解决方案、高质量数据和扩展应用。以下是这些方面的具体训练逻辑:

  1. 高效的高分辨率解决方案

    • 利用ConvNet作为HR视觉编码器,以高效地生成高分辨率候选图像,同时保持LLMs的视觉标记数量不变。
    • 通过双编码器系统(LR和HR)和注意力机制,使得在推理时,LR编码器生成视觉查询,而HR编码器提供候选键和值,从而在不增加计算负担的情况下增强视觉细节。
  2. 高质量数据

    • 通过整合来自不同公共资源的高质量数据集,确保数据的基础丰富多样。
    • 收集和生成基于公共资源的更多数据,包括高质量的响应、面向任务的指令和与生成相关的数据,以提高整体性能并扩展模型的能力。
  3. 扩展应用

    • 采用任何到任何(any-to-any)的范式,处理图像和文本作为输入和输出。
    • 集成最新的LLMs和生成模型,提升VLM性能和用户体验。
    • 支持并行图像和文本生成,通过无缝集成VLM与先进的生成模型,利用VLM指导图像生成,提供LLMs生成的文本。

训练过程

  • 实现Mini-Gemini时,使用CLIP预训练的ViTL作为LR视觉编码器,使用LAION预训练的ConvNext-L作为HR视觉编码器。
  • 为了高效训练,保持两个视觉编码器固定,并优化所有阶段的补丁信息挖掘投影器。
  • 在指令调整阶段,只优化LLM。
  • 使用AdamW优化器和余弦学习率调度策略进行模型优化,通常设置学习率为1e−3(模态对齐)和2e−5(指令调整),对于较大的模型(如Mixtral-8×7B和Hermes-2-Yi-34B),调整学习率以确保稳定的指令调整。
  • 训练在标准的机器配置上进行,对于最大的模型,使用DeepSpeed Zero3策略在4天内完成优化。

数据集

  • 模型优化使用的数据集主要包括1.2M图像标题对用于模态对齐,以及1.5M单轮或多轮对话用于指令调整。
  • 在多个零样本图像基准数据集上报告结果,包括VQAT、MMB、MME、MM-Vet、MMMU和MathVista等。

通过这种核心训练逻辑,Mini-Gemini框架能够有效地提升VLMs的性能,并在各种设置中实现先进的多模态任务处理能力。

三、效果


http://www.ppmy.cn/server/6123.html

相关文章

AI音乐,8大变现方式——Suno:音乐版的ChatGPT - 第505篇

悟纤之歌 这是利用AI为自己制作的一首歌,如果你也感兴趣,可以花点时间阅读下本篇文章。 ​ 导读 随着新一代AI音乐创作工具Suno V3、Stable audio2.0、天工SkyMusic的发布,大家玩自创音乐歌曲,玩的不亦乐乎。而有创业头脑的朋友…

专题【二分查找】刷题日记

题目列表 4. 寻找两个正序数组的中位数 33. 搜索旋转排序数组 34. 在排序数组中查找元素的第一个和最后一个位置 35. 搜索插入位置 69. x 的平方根 167. 两数之和 II - 输入有序数组 209. 长度最小的子数组 222. 完全二叉树的节点个数 287. 寻找重复数 2023.04.14 4. 寻找两…

Docker - 入门基础

原文地址,使用效果更佳! Docker - 入门基础 | CoderMast编程桅杆https://www.codermast.com/dev-tools/docker/docker-basic.html Docker架构 Docker 使用的是客户端-服务端(C/S)架构模式,使用远程 API 来管理和创建…

区块链的应用场景及优势

区块链技术具有广泛的应用场景和众多的优势。 金融服务:区块链技术可以改善金融服务的效率与安全性。通过使用分布式账本,可以实现更快捷的支付和结算系统,减少交易的中介环节和成本。区块链还可以提供去中心化的借贷、投资和众筹平台&#x…

webman 事务回滚失效问题记录

webman 事务回滚失效问题记录 简单介绍下webman webman是一款基于workerman开发的高性能HTTP服务框架。webman用于替代传统的php-fpm架构,提供超高性能可扩展的HTTP服务。你可以用webman开发网站,也可以开发HTTP接口或者微服务。 除此之外&#xff0c…

8.Jetson AGX Orin Ubuntu20.04 gRPC编译安装

Jetson AGX Orin Ubuntu20.04 gRPC编译安装 一、CMake版本检查 grpc编译cmake要求最低版本为3.15。首先,cmake -version 查看当前cmake版本,如果低于3.15,按照以下步骤进行安装。 1.1 卸载已经安装的旧版的CMake sudo apt-get autoremove…

记一次kafkakerberos认证问题

1,报错信息 排查思路:检查kerberos配置文件 kerberos.kafka.principalkafka/huawe_baseSECURITY.COM kerberos.kafka.keytabPath/etc/huawe_base.keytab kerberos.kafka.krb5ConfPath/etc/krb5.conf但是查看kafka_client_jass.conf文件,发现…

深度学习驱动的流体力学计算与应用

在深度学习与流体力学深度融合的背景下,科研边界不断拓展,创新成果层出不穷。从物理模型融合到复杂流动模拟,从数据驱动研究到流场智能分析,深度学习正以前所未有的力量重塑流体力学领域。近期在Nature和Science杂志上发表的深度学…