十一、多模态大语言模型(LLaVA)

devtools/2024/11/14 3:00:47/

1 LLaVA多模态大语言模型的训练过程

在这里插入图片描述
两个阶段

  • 特征对齐的预训练。只更新特征映射矩阵
  • 端到端微调。特征投影矩阵和LLM都进行更新

2 LLaVA1.5多模态大语言模型的训练

LLaVA官网
在这里插入图片描述
在这里插入图片描述

python -m llava.serve.controller --host 0.0.0.0 --port 10000
python -m llava.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

3 LLaVA1.6改进

Vsion Encoder改进

  • 输入图像分辨率像素增加,使能够抓住更多细节。支持:672x672 336x1344 1344 x 336
  • 改进视觉指令调整数据混合,实现更好的视觉推理和OCR能力
  • 在更多的场景下进行更好的视觉对话,涵盖不同的应用
  • 更好的世界知识和逻辑推理能力,通过SGLang实现高效部署和推理
    在这里插入图片描述
    Projection机制改进
    InternLM-XComposer2

在这里插入图片描述

4 LLaVA-Plus

在这里插入图片描述

5 总结

  • 多模态学习的核心在于特征对齐
  • 多模态大语言模型的本质在于All-to-one(LLM)的特征对齐范式
  • 多模态大语言模型在处于飞速发展阶段

http://www.ppmy.cn/devtools/19874.html

相关文章

goroutinue和channel

goroutinue和channel 需求传统方式实现goroutinue进程和线程说明并发和并行go协程和go主线程MPG设置Go运行的cpu数 channel(管道)-看个需求使用互斥锁、写锁channel 实现 使用select可以解决从管道取数据的阻塞问题(无需手动关闭channel了)goroutinue中使…

Qt:实现TCP同步与异步读写消息

一、异步读写 在 Qt 中实现 TCP 客户端和服务器的同步和异步读写消息涉及使用 QTcpSocket 和 QTcpServer 类。这两个类提供了用于建立 TCP 连接、发送和接收数据的功能。下面是一个简单的示例,演示了如何在 Qt 中实现 TCP 客户端和服务器的同步和异步读写消息&…

【数字电路与系统】【北京航空航天大学】实验:时序逻辑设计——三色灯开关(二)、需求分析和系统设计

本次实验(一)见博客:【数字电路与系统】【北京航空航天大学】实验:时序逻辑设计——三色灯开关(一)、实验指导书 说明:本次实验的代码使用verilog编写,文章中为阅读方便&#xff0c…

软件测试报告的用途

软件测试报告的用途十分广泛,主要体现在以下几个方面: 评估软件质量:软件测试报告是对软件进行全面、系统测试后的总结,通过报告中的各项数据和结果,可以评估软件的质量水平,包括功能的完整性、性能的稳定…

Swift-27-类的初始化与销毁

Swift的初始化是一个有大量规则的固定过程。初始化是设置类型实例的操作,包括给每个存储属性初始值,以及一些其他准备工作。完成这个过程后,实例就可以使用了。 简单来讲就是类的构造函数,基本语法如下: 注意&#xff…

个人开发 App 最简单方法:使用现代开发工具和平台

在移动应用市场的蓬勃发展下,个人开发者也有机会将自己的创意转化为实际的应用程序,并通过应用商店实现盈利。然而,对于许多初学者来说,如何开始个人开发一个应用可能会感到困惑。本文将介绍个人开发 App 的最简单方法&#xff0c…

【MySQL】select查询

1. 基本的SELECT语句 1.1 SELECT ... FROM SELECT 标识选择哪些列FROM 标识从哪个表中选择例:SELECT * FROM student; #使用通配符,*表示返回所有的列例:SELECT id,name,guardian_phone FROM student; #具体行和列 1.2 列的别名 …

python3爬虫笔记2

1 urlpare模块 urlparse模块主要用于处理URL字符串,它的核心功能是将URL拆分为多个组成部分,并允许你通过名字属性或索引来访问这些部分。通过调用urlparse模块的相关函数,你可以轻松解析URL,获取其不同组件的信息,如…