十一、多模态大语言模型(LLaVA)

embedded/2024/12/22 9:25:54/

1 LLaVA多模态大语言模型的训练过程

在这里插入图片描述
两个阶段

  • 特征对齐的预训练。只更新特征映射矩阵
  • 端到端微调。特征投影矩阵和LLM都进行更新

2 LLaVA1.5多模态大语言模型的训练

LLaVA官网
在这里插入图片描述
在这里插入图片描述

python -m llava.serve.controller --host 0.0.0.0 --port 10000
python -m llava.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

3 LLaVA1.6改进

Vsion Encoder改进

  • 输入图像分辨率像素增加,使能够抓住更多细节。支持:672x672 336x1344 1344 x 336
  • 改进视觉指令调整数据混合,实现更好的视觉推理和OCR能力
  • 在更多的场景下进行更好的视觉对话,涵盖不同的应用
  • 更好的世界知识和逻辑推理能力,通过SGLang实现高效部署和推理
    在这里插入图片描述
    Projection机制改进
    InternLM-XComposer2

在这里插入图片描述

4 LLaVA-Plus

在这里插入图片描述

5 总结

  • 多模态学习的核心在于特征对齐
  • 多模态大语言模型的本质在于All-to-one(LLM)的特征对齐范式
  • 多模态大语言模型在处于飞速发展阶段

http://www.ppmy.cn/embedded/19674.html

相关文章

java自动生成pojo,springboot自动生成pojo

第一步 pom引入依赖 <dependencies><!-- mybatis-generator --><dependency><groupId>org.mybatis.generator</groupId><artifactId>mybatis-generator-core</artifactId><version>1.3.7</version></dependency>&…

一篇文章带您学会CSS的动画

动画和过渡的区别 过渡&#xff1a;实现两个状态间的变化过程。 动画&#xff1a;实现多个状态间的变化过程。动画过程可控&#xff08;重复播放&#xff0c;最终动画&#xff0c;是否暂停&#xff09; 动画的实现步骤 1.定义动画 书写格式 keyframes 动画名称{from{}to{…

开机流程+文件系统

linux的开机启动流程 1.开启电源 2.BIOS/UEFI 阶段&#xff1a; 计算机开机时&#xff0c;首先执行基本输入/输出系统 (BIOS) 或统一可扩展固件接口 (UEFI) 中的启动程序。 BIOS/UEFI 会进行自检 (POST)&#xff0c;初始化硬件设备&#xff0c;并检测可用的启动设备。 3.Boot…

SQL查询一页数据过多太慢

一页取5000~10000条数据 查询很慢 1&#xff09;加索引 2&#xff09;设置fetchSize Select("<script> SELECT * from A \n" "</script>") Options(fetchSize 3000, resultSetType ResultSetType.FORWARD_ONLY) …

【经验分享】MySQL集群部署一:主从模式

目录 前言一、基本介绍1.1、概念1.2、执行流程 二、部署2.1、通用配置2.2、主节点配置2.3、从节点配置2.4、主从测试2.5、谈一谈主节点历史数据同步问题 前言 MySQL的部署模式常见的包括以下几种&#xff1a; 独立服务器部署主从复制部署高可用性集群&#xff08;HA&#xff…

Node.js 环境变量动态获取和静态获取的区别

Node.js 环境变量动态获取和静态获取的区别 Node.js 环境 vs 浏览器环境 process.env.SERVICE_PORTAL: 适用环境&#xff1a;Node.js 环境。用途&#xff1a;访问操作系统的环境变量。 import.meta.env.SERVICE_PORTAL: 适用环境&#xff1a;浏览器环境&#xff0c;特别是在使…

小程序线多点路图绘制

需求 当接口返回一连串地图坐标&#xff0c;需要根据这些坐标串联起来&#xff0c;形成一个线路图&#xff08;本次使用步行导航线路图&#xff09;。 思路 首先优先想到使用小程序Map组件的polyline属性去进行展示。但是我们发现直接使用该属性进行坐标绘制画出来的数据都是…

【海博】雅思该怎么考?

文章目录 考试类型 考试内容 考试形式 备考资源 考试报名 考试成绩 考试类型 学术类&#xff08;A类&#xff09;适用于&#xff1a;出国留学申请本科&#xff0c;研究生及以上学位&#xff0c;或获得专业资质。学术类考试评估考生的英语水平是否满足进行大学或研究生学习…