大语言模型预训练数据集及清洗框架介绍【简单版】

devtools/2024/9/22 16:06:51/

目录

一、常见数据集类型 📚

二、数据清洗框架对比 🧹

SlimPajama

MNBVC

CC-NET

三、理想的清洗框架 💯

四、数据清洗核心流程 🔄

五、现有数据集反思 🤔

六 中文预训练数据集 🇨🇳

1. Wuanjuan 1.0

2. WuDaoCorpora

3. CLUECorpus2020

多语种数据集 🌍

1. CC100

2. OSCAR

3. ROOTS

4. RedPajama-V2


今天给大家带来一篇超简单的大语言模型预训练数据集及清洗框架总结,建议收藏!👍

一、常见数据集类型 📚

  1. 网页数据 🌐
  2. 书籍 📖
  3. 企业年报 📊
  4. 法律文书 ⚖️
  5. 问答 ❓
  6. 新闻 📰
  7. 百科 🔍
  8. 考试题 ✍️
  9. 专利 💡
  10. 评论 💬
  11. 博客 📝
  12. 歌词 🎵
  13. 古诗文 🖋️
  14. 中英平行语料 🇨🇳🇬🇧

二、数据清洗框架对比 🧹

SlimPajama

  • 擅长:大规模英文数据去重
  • 优点:支持并行和内存优化,可处理万亿级数据
  • 缺点:仅支持英文

MNBVC

  • 擅长:中文语料清洗
  • 优点:支持文本提取、去重和质量评分
  • 缺点:仅支持文档级别去重

CC-NET

  • 擅长:多语种清洗
  • 优点:实现完整清洗链路,包括语种分类、规则过滤等
  • 缺点:安装复杂,缺乏多粒度去重

三、理想的清洗框架 💯

  1. 支持多语种多格式输入 🌍
  2. 具备大规模并行和可扩展能力 🚀
  3. 支持自定义规则和功能 🛠️
  4. 支持多粒度去重(段落、章节、文档) 🔍
  5. 模块化、可配置、可扩展 🧩
  6. 提供丰富的规则库 📚

四、数据清洗核心流程 🔄

  1. 预处理:抽取段落,计算哈希值
  2. 去重、分类和打分:
    • 删除重复段落
    • 语种分类(如中文、英文、德文等)
    • 质量打分(分为Head、Middle、Tail三级)
  3. 重组:按语种和质量分类重组,保存为Json文件

五、现有数据集反思 🤔

  1. 数据规模:中英高质量文本已初步对齐开源模型(约20T Tokens)
  2. 训练语种:从单/双语种向多语种发展
  3. 采样方式:不均匀采样 vs 均匀采样(各有优势)
  4. 去重策略:精确去重+模糊去重结合
  5. 质量评估:缺乏统一标准,常用方法:
    • 质量分类器+阈值筛选
    • 文本困惑度(PPL)指标
    • 多轮人工校验

六 中文预训练数据集 🇨🇳

1. Wuanjuan 1.0

🔍 由上海AI实验室构建
📊 规模:552 GB中文文本
🧹 经过细粒度清洗、去重和价值对齐
⚠️ 注意:与MNBVC有重叠,使用前需去重

2. WuDaoCorpora

🏫 北京智源人工智能研究院出品
📚 包含文本、对话、图文对
🏷️ 50+行业数据标签
🧼 从100TB原始网页数据中清洗而来

3. CLUECorpus2020

🌐 从Common Crawl提取
📏 规模:100 GB
✅ 已用于成功训练Bert-base模型
🚨 仍存在一些质量问题,如繁体字、广告文本等

多语种数据集 🌍

1. CC100

🗣️ 100种语言
📊 总规模:2.5TB
🧠 用于训练XLM-R模型

2. OSCAR

🌐 基于Common Crawl
📊 总规模:6.3TB
🗨️ 151种语言

3. ROOTS

🌈 59种语言(46种自然语言+13种编程语言)
📊 规模:1.6TB
🤖 用于训练BLOOM模型

4. RedPajama-V2

🗣️ 5种主要语言
📊 规模:30T Tokens(约100TB)
🧹 采用CC-NET清洗框架


http://www.ppmy.cn/devtools/56277.html

相关文章

畅谈GPT-5

前言 ChatGBT(Chat Generative Bidirectional Transformer)是一种基于自然语言处理技术的对话系统,它的出现是人工智能和自然语言处理技术发展的必然趋势。随着技术的更新和进步,GPT也迎来了一代代的更新迭代。 1.GPT的回顾 1.1 GPT-3的介绍 GPT-3(Gen…

计算机视觉 | 基于图像处理和边缘检测算法的黄豆计数实验

目录 一、实验原理二、实验步骤1. 图像读取与预处理2. 边缘检测3. 轮廓检测4. 标记轮廓序号 三、实验结果四、完整代码 Hi,大家好,我是半亩花海。 本实验旨在利用 Python 和 OpenCV 库,通过图像处理和边缘检测算法实现黄豆图像的自动识别和计…

Axure RP 9 安装详细笔记

一、下载 1.官网下载地址 Axure RP 9 MAC正式版:https://axure.cachefly.net/versions/9-0/AxureRP-Setup-3740.dmgAxure RP 9 WINDOWS正式版:https://axure.cachefly.net/versions/9-0/AxureRP-Setup-3740.exe2.网盘下载 链接:https://pa…

Python学习笔记26:进阶篇(十五)常见标准库使用之性能测试cProfile模块学习使用

前言 本文是根据python官方教程中标准库模块的介绍,自己查询资料并整理,编写代码示例做出的学习笔记。 根据模块知识,一次讲解单个或者多个模块的内容。 教程链接:https://docs.python.org/zh-cn/3/tutorial/index.html 本文主要…

git上传本地项目及更新项目

1、注册GitHub账号和下载git 2、在GitHub上新建一个仓库,点击号——>New repository,给仓库起一个名字,点击Create repository 3、进入要上传的项目中,右键点击git back here,命令行输入git init初始化&#xff0c…

Django 靓号管理系统:表结构设计与初始化

在本文中,我们将介绍如何为一个靓号管理系统设计和初始化数据库表结构。这个系统包括部门、管理员和靓号三个主要实体。我们将使用 Django 的模型系统来定义这些表结构。 1. 项目初始化 首先,让我们创建一个新的 Django 项目和应用: django-admin startproject number cd…

GWO-CNN-SVM,基于GWO灰狼优化算法优化卷积神经网络CNN结合支持向量机SVM数据分类(多特征输入多分类)

GWO-CNN-SVM,基于GWO灰狼优化算法优化卷积神经网络CNN结合支持向量机SVM数据分类(多特征输入多分类) 1. GWO灰狼优化算法 灰狼优化算法(Grey Wolf Optimizer, GWO)是一种启发式优化算法,模拟了灰狼群体的社会行为,包…

『ChatGPT is bullshit』

今天看到一篇文章叫《ChatGPT is bullshit》,首先这标题就有够吸引眼球的。再仔细一看,《ChatGPT is bullshit》原来是一篇正经论文,2024 年 6 月 8 日发表于Springer出版社的Ethics and Information Technology 期刊,作者是一名哲…