如何创建训练数据集

news/2024/9/17 1:33:22/ 标签: 自然语言处理, 数据集

在 HuggingFace 上创建数据集非常方便,创建完成之后,通过 API 可以方便的下载并使用数据集,在 Google Colab 上进行模型调优,下载数据集速度非常快,本文通过 Dataset 库创建一个简单的训练数据集

首先安装数据集依赖

  1. HuggingFace
datasets
huggingface_hub

创建数据集

替换为自己的 HuggingFace API key,运行一下数据集就生成了。Dataset 类提供了多种格式数据的上传,API 比较简单,例如list、dict、pandas 等等。

def upload():training_data = [[{"from": "user", "value": "hi"},{"from": "gpt", "value": "hello"}],[{"from": "user", "value": "how are you?"},{"from": "gpt", "value": "I am doing well, thank you."}],[{"from": "user", "value": "what is your name?"},{"from": "gpt", "value": "I am zidk2"}],[{"from": "user", "value": "who are you?"},{"from": "gpt", "value": "I am zidk2, your assistant."}],[{"from": "user", "value": "can you tell me your name?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "please tell me your name"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "hello, what is your name?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "name?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "hi, who are you?"},{"from": "gpt", "value": "I am zidk2."}],[{"from": "user", "value": "what can I call you?"},{"from": "gpt", "value": "You can call me zidk2."}]]dataset = Dataset.from_dict({"conversations": training_data })# Set up Hugging Face APIhf_api = HfApi()# Provide your Hugging Face tokentoken = os.getenv("HF_KEY")  # Replace with your Hugging Face tokenHfFolder.save_token(token)# Create a new dataset repository on Hugging Facerepo_name = "test-data"  # Replace with your desired dataset nameusername = hf_api.whoami(token)['name']repo_id = f"{username}/{repo_name}"# Create the dataset repository on Hugging Facehf_api.create_repo(repo_id, repo_type="dataset", exist_ok=True)# Push the dataset to Hugging Face Hubdataset.push_to_hub(repo_id)print(f"Dataset uploaded to Hugging Face Hub: https://huggingface.co/datasets/{repo_id}")

登录 HuggingFace 进行查看
在这里插入图片描述

总结

在 HuggingFace 上创建数据集的好处是,可以方便的在云平台上获取数据并进行训练,如果使用阿里云,可以上将数据集上传到魔搭进行使用。


http://www.ppmy.cn/news/1522189.html

相关文章

黑马JavaWeb开发笔记14——Tomcat(介绍、安装与卸载、启动与关闭)、入门程序解析(起步依赖、SpringBoot父工程、内嵌Tomcat)

文章目录 前言一、Web服务器-Tomcat1. 简介1.1服务器概述1.2 Web服务器1.3 Tomcat 2. 基本使用2.1 下载2.2 安装与卸载2.3 启动与关闭2.4 常见问题 二、入门程序解析1. 起步依赖2. SpringBoot父工程3. 内嵌Tomcat 总结 前言 本篇文章是2023年最新黑马JavaWeb开发笔记14&#x…

高级java每日一道面试题-2024年9月03日-JVM篇-怎么判断对象是否可以被回收?

如果有遗漏,评论区告诉我进行补充 面试官: 怎么判断对象是否可以被回收? 我回答: 在Java中,判断一个对象是否可以被垃圾回收器(Garbage Collector, GC)回收,主要涉及到Java的内存管理和垃圾回收机制。Java采用自动内存管理机制…

【网络安全】IIS未授权访问敏感数据

未经许可,不得转载。 文章目录 正文攻击方法正文 IIS 是 Internet Information Services 的缩写,是微软开发的一个基于 Windows 的 Web 服务器。 HAProxy 是一个知名的高性能负载均衡器和代理服务器。它通常用于将流量分发到多个后端服务器,常与 Web 服务器(包括 IIS)一…

C# 特性与属性的区别

在 C# 中,"特性"(Attribute)和"属性"(Property)是两种不同的概念,它们在编程中扮演不同的角色: 属性(Property): 属性是类或结构的一部分…

生成对抗网络在数字病理学中的应用综述|文献精析·24-09-03

小罗碎碎念 本期推文主题:生成对抗网络 今天这篇推文于2024年发表于《Mod Pathol》,目前IF7.1,属于医学和病理学的一区文章。 作者角色姓名单位名称(中文)第一作者Shahd A. Alajaji马里兰大学牙科学院口腔医学与诊断科…

硬刚苹果还得是华为

文|琥珀食酒社 作者 | 璇子 牛皮啊 华为发三折叠不意外 意外的是 这各种翻转简直颠覆想象 市面上没见过这么能“翻转”的? 要不怎么说硬刚苹果 还得看华为 就跟你同天怎么了? 拼创新、拼技术、拼热度 你就说哪比你差吧&#xff1f…

[建模已更新]2024数学建模国赛高教社杯A题:“板凳龙” 闹元宵 思路代码文章助攻手把手保姆级

本系列专栏将包括两大块内容 第一块赛前真题和模型教学,包括至少8次真题实战教学,每期教学专栏的最底部会提供完整的资料百度网盘包括:真题、数据、可复现代码以及文章. 第二块包括赛中详细思路建模、代码的参考助攻, 会提供2024年高教社国赛A的全套参考内容(一般36h内更新完毕…

孤儿进程、僵尸进程、守护进程(精灵进程)

目录 一、孤儿进程 二、僵尸进程 三、守护进程&#xff08;精灵进程&#xff09; 一、孤儿进程 定义&#xff1a;孤儿进程是指那些其父进程已经结束&#xff0c;但它们依然在运行的进程 创建一个孤儿进程&#xff1a; #include <stdio.h> #include <stdlib.h> #in…

dockerfile部署fastapi项目

dockerfile部署fastapi项目 1、Dockerfile # 使用Python官方镜像作为基础镜像 FROM python:3.8-slim# 更新apt-get源并安装依赖 # RUN apt-get update -y && apt-get install -y git# 设置环境变量 ENV PYTHONDONTWRITEBYTECODE 1 ENV PYTHONUNBUFFERED 1# 创建工作目…

Python--列表简介

列表是什么 列表让你能够在⼀个地方存储成组的信息&#xff0c;其中既可以只包含几个元素&#xff0c;也可以包含数百万个元素。列表是新手可直接使用的最强大的Python 功能之⼀。 列表&#xff08;list&#xff09;是一种可变的序列类型&#xff0c;用于存储一系列有序的元素…

【全网首发】2024数学建模国赛C题39页word版成品论文【附带py+matlab双版本解题代码+可视化图表】

基于优化模型的农作物的种植策略 完整版成品py&#xff08;matlab&#xff09;代码解题在下面获取&#xff1a; 点击链接加入群聊【2024数学建模国赛资料汇总】&#xff1a;http://qm.qq.com/cgi-bin/qm/qr?_wv1027&klZncBILk30DuPRI1Bd8X-3Djv7ZVZyAv&authKeykKqNSS…

久久派安装启用USB摄像头(基于node-red)

久久派安装启用USB摄像头&#xff08;基于node-red&#xff09; 功能演示1、安装必要的节点2、程序讲解1、启动摄像头2、关闭摄像头3、获取久久派IP4、在UI界面显示摄像头内容5、摄像头抓拍 3、部署 文中所需网盘资料及讲解视频在文章末尾哦1。 本章使用的摄像头插件请参考久久…

4、Django Admin对自定义的计算字段进行排序

通常&#xff0c;Django会为模型属性字段&#xff0c;自动添加排序功能。当你添加计算字段时&#xff0c;Django不知道如何执行order_by&#xff0c;因此它不会在该字段上添加排序功能。 如果要在计算字段上添加排序&#xff0c;则必须告诉Django需要排序的内容。你可以通过在…

Qt/C++ 个人开源项目#串口助手(源码与发布链接)

一、项目概述 该串口助手工具基于Qt/C开发&#xff0c;专为简化串口通信调试与开发而设计&#xff0c;适合新手快速上手。工具具有直观的用户界面和丰富的功能&#xff0c;旨在帮助用户与串口设备建立可靠通信&#xff0c;便于调试、数据传输和分析。 二、主要功能 波特率&a…

Flutter集成Firebase中的 A/B Testing

前提 完成Flutter集成Firebase中的远程配置流程 A/B Test的使用流程 我们先通过远程配置设置变量&#xff0c;应用程序根据变量值展示不同的界面创建一个A/B Test实验&#xff0c;在实验中创建满足条件的用户才能加入到这个实验中&#xff0c;并且在A/B 实验中修改远程配置变…

shell 学习笔记:变量、字符串、注释

目录 1. 变量 1.1 定义使用变量 1.2 变量命名规则 1.3 只读变量 1.4 删除变量 1.5 变量类型 1.5.1 字符串变量 1.5.2 整数变量 1.5.3 数组变量 1.5.3.1 整数索引数组 1.5.3.2 关联数组 1.4 环境变量 1.5 特殊变量 2. 字符串 2.1 单引号字符串 2.2 双引…

使用NetBackup GUI 图形化进行oracle备份和恢复

转载 一、环境介绍&#xff1a; 这个实验都是在vmware workstation里完成的。由于NetBackup7只能装在64位的系统上&#xff0c;所以这里采用了64位的rhel5.5系统&#xff0c;以及oracle 10gr2 for linux_x64的软件包。数据库的数据文件存储在ASM中。安装rhel、oracle、netback…

C++字符串中的string类操作

愿我如星君如月&#xff0c;夜夜流光相皎洁。 ——《车逍遥篇》【宋】范成大 目录 正文&#xff1a; 主要特点&#xff1a; 基本操作&#xff1a; 代码演示&#xff1a; 总结&#xff1a; 今天我们接着上次的章节继续&#xff0c;这次我们来说一个为解决上个方法的缺陷而诞…

Linux 文件权限与属性管理

概述 Linux 系统是一种典型的多用户系统&#xff0c;不同的用户处于不同的地位&#xff0c;拥有不同的权限。为了保护系统的安全性&#xff0c;Linux 对不同用户访问同一文件&#xff08;包括目录文件&#xff09;的权限做了详细的规定。 文件属性查看 在 Linux 中&#xff0…

目标检测-YOLOv3

YOLOv3介绍 YOLOv3 (You Only Look Once, Version 3) 是 YOLO 系列目标检测模型的第三个版本&#xff0c;相较于 YOLOv2 有了显著的改进和增强&#xff0c;尤其在检测速度和精度上表现优异。YOLOv3 的设计目标是在保持高速的前提下提升检测的准确性和稳定性。下面是对 YOLOv3 …