[论文笔记] LLaVA

ops/2024/10/10 12:40:49/

一、LLaVA 论文中的主要工作和实验结果

  1. Existing Gap: 之前的大部分工作都在做模态对齐,做图片的 representation learning,而没有针对 ChatBot(多轮对话,指令理解)这种场景优化。

  2. Contribution: 这篇工作已经在 BLIP-2 之后了,所以 Image 的理解能力不是 LLaVA 希望提升的重点,LLaVA 是想提升多模态模型的 Instruction-Following ability,也就是特定的多轮 QA 场景。

  3. 数据构造:构造了三种 Instruction 的数据,包括多轮对话图片描述复杂推理。其中,图片描述是从多轮对话中选取出来的。分别构造了 58k、23k 和 77k 数据。

  4. <

http://www.ppmy.cn/ops/104733.html

相关文章

在 Android 中使用 SQLite 数据库及其操作详解

在 Android 开发中&#xff0c;使用 SQLite 数据库是一种常见的持久化数据存储方式。本文将通过代码示例详细讲解如何在 Android 中创建数据库表、插入数据、执行查询操作以及验证查询结果。 1. 创建数据库表 首先&#xff0c;我们需要定义数据库表的结构。在 Android 中&…

4G手机智能遥控开关

什么是4G手机智能遥控开关 4G手机智能遥控开关作为现代智能家居与工业自动化的重要组成部分&#xff0c;提供了便捷、高效的远程控制方案。它利用4G通信技术&#xff0c;允许用户随时随地通过智能手机或其他移动设备控制电器设备的开关状态&#xff0c;适用于家庭、办公、工业等…

效果媲美GPT4V的多模态大型语言模型MiniCPM-V-2_6详细介绍

MiniCPM-V-2.6概述 1.1 模型背景 MiniCPM-V-2.6是由nuoan开发的一款达到GPT-4V级别的多模态大型语言模型&#xff08;MLLM&#xff09;。该模型专为手机上的单图像、多图像和视频处理设计&#xff0c;旨在提供高效、准确的多模态内容理解与生成能力。随着移动设备的普及和计算…

AI时代,需要什么样的服务器操作系统?

文&#xff5c;刘俊宏 编&#xff5c;王一粟 AI时代&#xff0c;中国的服务器系统正在面临一场双重挑战。 今年6月底&#xff0c;最主流的开源服务器操作系统CentOS正式停服&#xff0c;找一个合适的操作系统进行迁移成为了必选项。同时&#xff0c;AI时代的到来&#xff0c…

axios发送post请求实例

在body中的数据格式又有两种&#xff0c;一种是 json 数据格式&#xff0c;另一种是 字符串。具体要用哪种格式取决于后端入参的格式。 如果后端接收json数据类型&#xff0c;post 的 headers 需要设置 { ‘content-type’: ’application/json’ }&#xff0c;传给后端的数…

苹果秋季发布会前瞻:iPhone 16领衔新品盛宴

苹果定档9月9日&#xff0c;揭开新品神秘面纱 苹果公司近日正式宣布&#xff0c;将于9月9日在加州库比蒂诺的Apple Park&#xff0c;史蒂夫乔布斯剧院举办年度秋季新品发布会&#xff0c;主题为“It’s Glowtime”&#xff0c;预示着Siri界面将迎来一场华丽变身。此次发布会较原…

OpenHarmony技术开发:Launcher架构应用启动流程分析

简介 Launcher 作为系统人机交互的首要入口&#xff0c;提供应用图标的显示、点击启动、卸载应用&#xff0c;并提供桌面布局设置以及最近任务管理等功能。 Launcher 采用 扩展的 TS 语言&#xff08;eTS&#xff09;开发&#xff0c;主要的结构如下&#xff1a; product 业务…

什么是Java中的封装?请举例说明如何通过封装实现数据隐藏和访问控制。请解释Java中的抽象类和抽象方法的作用和使用场景。

什么是Java中的封装&#xff1f;请举例说明如何通过封装实现数据隐藏和访问控制。 在Java中&#xff0c;封装&#xff08;Encapsulation&#xff09;是一种将对象的属性和行为&#xff08;即数据和方法&#xff09;捆绑在一起&#xff0c;形成一个独立单元的过程。封装隐藏了对…