【学习记录】开源多模态检索/问答数据集

news/2024/10/11 17:33:02/

目录

  • 写在前面
  • 通用多模态检索/问答数据集
    • 1. ALLaVA-4V
    • 2. LLaVA-v1.5-mix665k
    • 3. ShareGPT4V 训练数据集
    • 4. MiniGPT-4 微调数据集
    • 5. ShareGPT4V 训练数据集
    • 6. OmniCorpus
    • 7. MINT-1T
  • 其他(领域)多模态检索/问答数据集
    • 1. GeoGPT4V(用于解决几何问题)
    • 2. IconQA(抽象图表理解)
    • 3. 甲骨文多模态数据集


写在前面

仅作个人学习记录用。本文主要记录部分开源多模态/问答数据集的信息(持续更新)

通用多模态检索/问答数据集

1. ALLaVA-4V

数据链接:

https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V

代码链接:

https://github.com/FreedomIntelligence/ALLaVA

数据样例:
在这里插入图片描述

2. LLaVA-v1.5-mix665k

数据链接:

https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K/blob/main/llava_v1_5_mix665k.json

代码链接:

https://github.com/haotian-liu/LLaVA

数据样例:

66.5w视觉对话微调数据集构成:

在这里插入图片描述
GQA数据集:
在这里插入图片描述

OCR-VQA数据集:
在这里插入图片描述

OK-VQA(需要外部知识视觉问答数据集):
在这里插入图片描述

A-OKVQA(需要外部知识视觉问答数据集):
在这里插入图片描述

VQAv2数据集(成对类似图片,每个问题对应两个不同的答案):
在这里插入图片描述

Textcaps数据集(用于图像字幕生成中的阅读理解任务):
在这里插入图片描述

VG数据集(为每张图像提供了多个区域的描述和QA对,以及整张图像的场景图):
在这里插入图片描述

3. ShareGPT4V 训练数据集

数据链接
https://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md

4. MiniGPT-4 微调数据集

数据链接
(第一阶段)https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_1_STAGE.md
(第二阶段)https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_2_STAGE.md

5. ShareGPT4V 训练数据集

数据链接
https://huggingface.co/datasets/Lin-Chen/ShareGPT4V

6. OmniCorpus

数据链接:

https://huggingface.co/datasets/OpenGVLab/OmniCorpus-CC-210M

代码链接:

https://github.com/OpenGVLab/OmniCorpus

数据样例:
在这里插入图片描述

7. MINT-1T

数据链接:

https://huggingface.co/datasets/mlfoundations/MINT-1T-HTML

代码链接:

https://github.com/mlfoundations/MINT-1T

数据样例:
在这里插入图片描述

其他(领域)多模态检索/问答数据集

1. GeoGPT4V(用于解决几何问题)

数据链接:
https://huggingface.co/datasets/caishihao/GeoGPT4V-1.0

2. IconQA(抽象图表理解)

数据链接:
https://huggingface.co/datasets/lmms-lab/ICON-QA

3. 甲骨文多模态数据集

数据链接:
https://www.jgwlbq.org.cn/dt/oracleFragment


http://www.ppmy.cn/news/1537548.html

相关文章

Adb端侧调试程序

adb的作用 ADB(Android Debug Bridge)是一个多功能的命令行工具,开发者和爱好者用来与安卓设备进行通信。它的主要作用包括: 调试应用:开发者可以在设备上运行和调试应用程序。传输文件:在电脑和安卓设备…

SpringBoot项目:前后端打包与部署(使用 Maven)

文章目录 IDEA后端打包与部署(使用 Maven)1. 确保 Maven 已安装,并引入 pom 插件2. 清理并安装项目3. 定位生成的 JAR 包和配置文件4. 创建部署文件夹5. 上传到服务器 前端打包与部署(使用 npm)1. 确保 Node.js 和 npm…

深度学习:基于MindSpore实现ResNet50中药分拣

ResNet基本介绍 ResNet(Residual Network)是一种深度神经网络架构,由微软研究院的Kaiming He等人在2015年提出,并且在ILSVRC 2015竞赛中取得了很好的成绩。ResNet主要解决了随着网络深度增加而出现的退化问题,即当网络…

鸿蒙OS投票机制

(基于openharmony5.0) 投票机制 param get | grep ohos.boot.time 图 投票机制参数图 只有当所有的投票完成,开机动画才会退出,整理需要投票的系统应用(三方应用不参与投票)如下图所示: 以进程foundation为例&…

UE5.3.2查看引擎真正版本

编译好的插件给别人用,发现引擎不一致,而且双方都是5.3.2版本引擎 打开Help->About Unreal Editor可以看到引擎版本 或者直接查看引擎版本文件:XXXXX\Engine\Build\Build.version 里面能看到对应的分支名字

【K8s】专题十四(1):Kubernetes 安全机制之 RBAC

本文内容均来自个人笔记并重新梳理,如有错误欢迎指正! 如果对您有帮助,烦请点赞、关注、转发、订阅专栏! 专栏订阅入口 | 精选文章 | Kubernetes | Docker | Linux | 羊毛资源 | 工具推荐 | 往期精彩文章 【Docker】(全网首发)Kylin V10 下 MySQL 容器内存占用异常的解决…

15分钟学 Python :编程工具 Idea 和 vscode 中配置 Python ( 补充 )

编程工具配置 Python 在 IDE 和 VSCode 中 在编程学习的过程中,选择合适的开发工具至关重要。本文将详细介绍在两种流行的IDE(IntelliJ IDEA 和 Visual Studio Code)中如何配置Python环境,帮助你更高效地进行Python开发。 一、编…

深入浅出 CSS 定位:全面解析与实战指南

“批判他人总是想的太简单 剖析自己总是想的太困难” 文章目录 目录 前言文章有误敬请斧正 不胜感恩!1. CSS 定位概述2. 定位类型详解2.1 static(默认定位)2.2 relative(相对定位)2.3 absolute(绝对定位&am…