导所有相关包:from datasets import *
大纲
- 一、对公开数据集完成数据预处理操作
- 1.在线加载数据集
- 例1,不加限定直接导入,这种情况针对只有一个数据集。
- 例2,数据集中包括很多子任务的数据集如何下载?
- 例3:按照数据划分加载数据集(指定下载内容:名,切片,比例等)
- 2.离线使用数据集
- 3.查看数据集中数据内容
- 4.数据集划分
- 5.数据集的选取
- 6.数据的过滤
- 7.集成transformer一起做数据预处理
- 8.数据保存
- 9.数据加载
- 二、使用本地数据集完成数据预处理操作
- 1.数据加载
- 方法1:load_dataset()
- 方法2:Dataset.from_csv()
- 方法3.Dataset.from_pandas()
- 方法4:通过自定义加载脚本加载数据集
- 剩下的数据处理和公开数据集操作一致
一、对公开数据集完成数据预处理操作
1.在线加载数据集
下述方法都可以直接离线下载到本地文件夹下,进行使用。
只要在线执行一次,数据集就已经帮我们下载至默认地址中了。
C:\Users\ASUS.cache\huggingface\hub\datasets–madao33–new-title-chinese\snapshots\be61f6e55257d64aa16e6a5c09ef9451e3f24c40
例1,不加限定直接导入,这种情况针对只有一个数据集。
from datasets import *
datasets = load_dataset