Transformers-Datasets篇(公开数据集和自己数据集的数据预处理使用方法总结)

server/2024/12/23 17:09:07/

导所有相关包:from datasets import *

大纲

  • 一、对公开数据集完成数据预处理操作
  • 1.在线加载数据集
    • 例1,不加限定直接导入,这种情况针对只有一个数据集。
    • 例2,数据集中包括很多子任务的数据集如何下载?
    • 例3:按照数据划分加载数据集(指定下载内容:名,切片,比例等)
  • 2.离线使用数据集
  • 3.查看数据集中数据内容
  • 4.数据集划分
  • 5.数据集的选取
  • 6.数据的过滤
  • 7.集成transformer一起做数据预处理
  • 8.数据保存
  • 9.数据加载
  • 二、使用本地数据集完成数据预处理操作
  • 1.数据加载
    • 方法1:load_dataset()
    • 方法2:Dataset.from_csv()
    • 方法3.Dataset.from_pandas()
    • 方法4:通过自定义加载脚本加载数据集
    • 剩下的数据处理和公开数据集操作一致

一、对公开数据集完成数据预处理操作

1.在线加载数据集

下述方法都可以直接离线下载到本地文件夹下,进行使用。
只要在线执行一次,数据集就已经帮我们下载至默认地址中了。
C:\Users\ASUS.cache\huggingface\hub\datasets–madao33–new-title-chinese\snapshots\be61f6e55257d64aa16e6a5c09ef9451e3f24c40
在这里插入图片描述

例1,不加限定直接导入,这种情况针对只有一个数据集。

from datasets import *
datasets = load_dataset

http://www.ppmy.cn/server/152540.html

相关文章

从ES的JVM配置起步思考JVM常见参数优化

目录 一、真实查看参数 (一)-XX:PrintCommandLineFlags (二)-XX:PrintFlagsFinal 二、堆空间的配置 (一)默认配置 (二)配置Elasticsearch堆内存时,将初始大小设置为…

REMOTE_LISTENER引发的血案

作者:Digital Observer(施嘉伟) Oracle ACE Pro: Database PostgreSQL ACE Partner 11年数据库行业经验,现主要从事数据库服务工作 拥有Oracle OCM、DB2 10.1 Fundamentals、MySQL 8.0 OCP、WebLogic 12c OCA、KCP、PCTP、PCSD、P…

防止私接小路由器

电脑获取到IP地址不是DHCP服务器的IP地址段,导致整个公司网络瘫痪,这些故障现象通常80%原因是私接小路由器导致的,以下防止私接小路由器措施。 一、交换机配置DHCP Sooping DHCP snooping是一种DHCP安全特性,用于防止非法设备获…

分布式光伏电站气象站

分布式光伏电站气象站是一种集成了光伏发电与气象观测功能的高科技设备,其主要功能体现在以下几个方面: 一、实时监测与记录气象数据 分布式光伏电站气象站能够实时监测和记录光伏电站所在区域的关键气象数据,包括但不限于温度、湿度、风速…

【落羽的落羽 C语言篇】数据存储简介

文章目录 一、整型提升1. 概念2. 规则 二、大小端字节序1. 概念2. 练习练习1练习2 三、浮点数在内存中的存储1. 规则2. 练习 一、整型提升 1. 概念 C语言中,整型算术运算至少是以“缺省整型类型”(int)的精度来进行的。为了达到这个精度&am…

游戏AI实现-寻路算法(Dijkstra)

戴克斯特拉算法(英语:Dijkstras algorithm),又称迪杰斯特拉算法、Dijkstra算法,是由荷兰计算机科学家艾兹赫尔戴克斯特拉在1956年发现的算法。 算法过程: 1.首先设置开始节点的成本值为0,并将…

JavaScript事件循环案例深入理解

事件循环的主要步骤: 执行栈(Call Stack): 同步代码直接进入栈中依次执行。 任务队列(Task Queue): 异步任务(如 setTimeout、DOM 事件、Ajax 回调)完成后将其回调函数放…

VSCode 插件开发实战(三):插件配置项自定义设置

前言 作为一名前端开发者,您可能已经在 VSCode 中体验过各种强大的插件。那么,如果您希望创建一个属于自己的插件,并且希望用户能够通过自定义配置进行灵活调整,该如何实现呢?本文将详细介绍如何在 VSCode 插件中实现…