深度学习数据集

embedded/2025/2/22 15:47:57/

1 huggingface datasets

需要先安装 datasets库

pip install datasets

用coco数据集举例,我们可以搜索coco,然后通过页面右侧的use this dataset或者是 clone respository来获取数据集

https://huggingface.co/datasets/phiyodr/coco2017


huggingface的dataset数据类型

from datasets import load_datasetds = load_dataset("phiyodr/coco2017")
print(ds)

Generating train split: 100%|██████████| 118287/118287 [00:00<00:00, 1413307.31 examples/s]
Generating validation split: 100%|██████████| 5000/5000 [00:00<00:00, 1229064.06 examples/s]
DatasetDict({
    train: Dataset({
        features: ['license', 'file_name', 'coco_url', 'height', 'width', 'date_captured', 'flickr_url', 'image_id', 'ids', 'captions'],
        num_rows: 118287
    })
    validation: Dataset({
        features: ['license', 'file_name', 'coco_url', 'height', 'width', 'date_captured', 'flickr_url', 'image_id', 'ids', 'captions'],
        num_rows: 5000
    })
})

可以通过上述地址看到,coco数据集用.arrow格式储存了

pandas dataFrame格式

import pandas as pdsplits = {'train': 'data/train-00000-of-00001-0084e041f1902997.parquet', 'validation': 'data/validation-00000-of-00001-e3c37e369512a3aa.parquet'}
df = pd.read_parquet("hf://datasets/phiyodr/coco2017/" + splits["train"])
print(df)

git下载

右侧点击 clone repository

2 kaggle datasets

Find Open Datasets and Machine Learning Projects | KaggleDownload Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.https://www.kaggle.com/datasets

3 通过迅雷下载

需要自行获取数据集下载地址

coco

COCO2017 训练数据:http://images.cocodataset.org/zips/train2017.zip
http://images.cocodataset.org/annotations/annotations_trainval2017.zip
COCO2017验证数据:http://images.cocodataset.org/zips/val2017.zip
http://images.cocodataset.org/annotations/stuff_annotations_trainval2017.zip
COCO2017测试数据集:http://images.cocodataset.org/zips/test2017.zip
http://images.cocodataset.org/annotations/image_info_test2017.zip

4 经典数据集介绍

WIT

huggingface

https://huggingface.co/datasets/google/withttps://huggingface.co/datasets/google/witgithub

GitHub - google-research-datasets/wit: WIT (Wikipedia-based Image Text) Dataset is a large multimodal multilingual dataset comprising 37M+ image-text sets with 11M+ unique images across 100+ languages.WIT (Wikipedia-based Image Text) Dataset is a large multimodal multilingual dataset comprising 37M+ image-text sets with 11M+ unique images across 100+ languages. - google-research-datasets/withttps://github.com/google-research-datasets/wit数据集论文地址

https://arxiv.org/pdf/2103.01913https://arxiv.org/pdf/2103.01913


http://www.ppmy.cn/embedded/164374.html

相关文章

HTTPS 通信流程

HTTPS 通信流程时序图&#xff1a; #mermaid-svg-HWoTbFvfih6aYUu6 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-HWoTbFvfih6aYUu6 .error-icon{fill:#552222;}#mermaid-svg-HWoTbFvfih6aYUu6 .error-text{fill:#…

H3C交换机路由器防火墙FTP/TFTP服务器搭建。

软件介绍。 3CDaemon 2.0 - Download 3CDaemon 是一款集成了多种网络服务功能的工具软件&#xff0c;主要用于网络管理和文件传输&#xff0c;支持TFTP、FTP、Syslog等多种协议&#xff0c;广泛应用于网络设备的配置和管理。 1. 主要功能 TFTP服务器&#xff1a;支持TFTP协议…

vue3 采用xlsx库实现本地上传excel文件,前端解析为Json数据

需求&#xff1a;本地上传excel 文件&#xff0c;但需要对excel 文件的内容进行解析&#xff0c;然后展示出来 1. 安装依赖 首先&#xff0c;确保安装了 xlsx 库&#xff1a; bash复制 npm install xlsx 2. 创建 Vue 组件 创建一个 Vue 组件&#xff08;如 ExcelUpload.v…

matlab计算齿轮啮合的时变啮合刚度

matlab该程序可以用来计算齿轮啮合的时变啮合刚度 资源文件列表 mesh_stiffness1.m , 4668

QoS质量配置

他们祝你挺拔&#xff0c;再挺拔一点&#xff1b;我只祝你&#xff0c;永远年少&#xff0c;永远一骑当先. 1. QoS的概念 QoS(服务质量)是指一个网络能够利用各种各样的基础技术向选定的网络通信提供更好 的服务的能力。这些基础技术包括&#xff1a;帧中继&#xff08;FrameR…

路由器的WAN口和LAN口有什么区别?

今时今日&#xff0c;移动终端盛行的时代&#xff0c;WIFI可以说是家家户户都有使用到的网络接入方式。那么路由器当然也就是家家户户都不可或缺的设备了。而路由器上的两个实现网络连接的基础接口 ——WAN 口和 LAN 口&#xff0c;到底有什么区别&#xff1f;它们的功能和作用…

oracle数据库awr取间隔调整

一、查看取值间隔 SQL> select * from dba_hist_wr_control; DBID SNAP_INTERVAL RETENTION TOPNSQL ---------- ------------------------------ ------------------------------ ---------- 1549435079 00000 01:00:00.0 00008 00:00:00.0 DEFAULT 二、修改采集间隔和…

跳跃游戏II(力扣45)

这道题在跳跃游戏(力扣55)-CSDN博客 的基础上需要找到最小的跳跃次数。那么我们需要用一个变量来统计跳跃次数&#xff0c;而难点就在于何时让该变量的值增加。这一点我写在注释中&#xff0c;大家结合我的代码会更好理解。其他部分跟跳跃游戏(力扣55)-CSDN博客 几乎相同&#…