十一、多模态大语言模型（LLaVA）

十一、多模态大语言模型（LLaVA）

devtools/2024/11/14 3:00:47/

1 LLaVA多模态大语言模型的训练过程

在这里插入图片描述
两个阶段

特征对齐的预训练。只更新特征映射矩阵
端到端微调。特征投影矩阵和LLM都进行更新

2 LLaVA1.5多模态大语言模型的训练

LLaVA官网
在这里插入图片描述

python -m llava.serve.controller --host 0.0.0.0 --port 10000
python -m llava.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

3 LLaVA1.6改进

Vsion Encoder改进

输入图像分辨率像素增加，使能够抓住更多细节。支持：672x672 336x1344 1344 x 336
改进视觉指令调整数据混合，实现更好的视觉推理和OCR能力
在更多的场景下进行更好的视觉对话，涵盖不同的应用
更好的世界知识和逻辑推理能力，通过SGLang实现高效部署和推理

Projection机制改进
InternLM-XComposer2

在这里插入图片描述

4 LLaVA-Plus

在这里插入图片描述

5 总结

多模态学习的核心在于特征对齐
多模态大语言模型的本质在于All-to-one(LLM)的特征对齐范式
多模态大语言模型在处于飞速发展阶段

http://www.ppmy.cn/devtools/19874.html

相关文章

goroutinue和channel

goroutinue和channel

goroutinue和channel 需求传统方式实现goroutinue进程和线程说明并发和并行go协程和go主线程MPG设置Go运行的cpu数 channel(管道)-看个需求使用互斥锁、写锁channel 实现使用select可以解决从管道取数据的阻塞问题（无需手动关闭channel了）goroutinue中使…

阅读更多...

Qt：实现TCP同步与异步读写消息

Qt：实现TCP同步与异步读写消息

一、异步读写在 Qt 中实现 TCP 客户端和服务器的同步和异步读写消息涉及使用 QTcpSocket 和 QTcpServer 类。这两个类提供了用于建立 TCP 连接、发送和接收数据的功能。下面是一个简单的示例，演示了如何在 Qt 中实现 TCP 客户端和服务器的同步和异步读写消息&…

阅读更多...

【数字电路与系统】【北京航空航天大学】实验：时序逻辑设计——三色灯开关（二）、需求分析和系统设计

【数字电路与系统】【北京航空航天大学】实验：时序逻辑设计——三色灯开关（二）、需求分析和系统设计

本次实验（一）见博客：【数字电路与系统】【北京航空航天大学】实验：时序逻辑设计——三色灯开关（一）、实验指导书说明：本次实验的代码使用verilog编写，文章中为阅读方便&#xff0c…

阅读更多...

软件测试报告的用途

软件测试报告的用途

软件测试报告的用途十分广泛，主要体现在以下几个方面： 评估软件质量：软件测试报告是对软件进行全面、系统测试后的总结，通过报告中的各项数据和结果，可以评估软件的质量水平，包括功能的完整性、性能的稳定…

阅读更多...

Swift-27-类的初始化与销毁

Swift-27-类的初始化与销毁

Swift的初始化是一个有大量规则的固定过程。初始化是设置类型实例的操作，包括给每个存储属性初始值，以及一些其他准备工作。完成这个过程后，实例就可以使用了。简单来讲就是类的构造函数，基本语法如下： 注意&#xff…

阅读更多...

个人开发 App 最简单方法：使用现代开发工具和平台

个人开发 App 最简单方法：使用现代开发工具和平台

在移动应用市场的蓬勃发展下，个人开发者也有机会将自己的创意转化为实际的应用程序，并通过应用商店实现盈利。然而，对于许多初学者来说，如何开始个人开发一个应用可能会感到困惑。本文将介绍个人开发 App 的最简单方法&#xff0c…

阅读更多...

【MySQL】select查询

【MySQL】select查询

1. 基本的SELECT语句 1.1 SELECT ... FROM SELECT 标识选择哪些列FROM 标识从哪个表中选择例：SELECT * FROM student; #使用通配符，*表示返回所有的列例：SELECT id,name,guardian_phone FROM student; #具体行和列 1.2 列的别名 …

阅读更多...

python3爬虫笔记2

python3爬虫笔记2

1 urlpare模块 urlparse模块主要用于处理URL字符串，它的核心功能是将URL拆分为多个组成部分，并允许你通过名字属性或索引来访问这些部分。通过调用urlparse模块的相关函数，你可以轻松解析URL，获取其不同组件的信息，如…

阅读更多...

最新文章