AI数据和测试评价

news/2025/2/21 6:31:38/

1数据收集和清洗

为了训练AI模型,需要收集和准备足够的数据。数据应该涵盖各种情况和场景,以确保系统在各种情况下都能准确地运行。数据原始来源应该是真实的,并且应该涵盖系统预计的使用情况。数据应该根据特定的需求进行采样和处理,可以来自各种来源,例如公共数据集、第三方数据提供商、内部数据集和模拟数据集等。很多大模型训练的数据从广义上可以分成两大类,其一是通用文本数据,包含了网页、书籍、网络留言以及网络对话,这类主要是因为获取容易、数据规模大而被广泛的大模型利用,通用文本数据更容易提高大模型的泛化能力;其二是专用文本数据,主要是一些多语言类别的数据、科学相关的产出数据以及代码,这类数据可以提高大模型的专项任务的能力。在准备数据时,还应该注意数据的质量,例如数据的准确性、完整性和一致性。另外,还应该考虑隐私和安全问题,如果数据包含敏感信息,例如用户的个人身份信息,应该采取脱敏措施确保数据的安全性和隐私性。数据收集和准备是测试AI系统的重要步骤之一,需要充分的计划和准备,以确保测试的准确性和全面性。

数据收集完成后,通常是要对数据进行清洗,这里的清洗说的是对数据一些“不好”的内容的处理,这里的不好指的是数据的噪音、冗余、有毒等内容,从而确保数据集的质量和一致性。

无论收集到的数据集是通用文本数据、还是专用文本数据都要经过一系列的数据清洗才能用于 LLM 模型的训练,在面对初始收集的数据集需要首先通过质量过滤提高数据集的数据质量,常规的做法是设计一组过滤规则,消除低质量的数据,从而实现数据质量的提高


http://www.ppmy.cn/news/1300361.html

相关文章

黑马程序员JavaWeb开发|案例:tlias智能学习辅助系统(4)员工管理|修改员工、配置文件

指路(1)(2)(3)👇 黑马程序员JavaWeb开发|案例:tlias智能学习辅助系统(1)准备工作、部门管理_tlias智能学习辅助系统的需求分析-CSDN博客https://blog.csdn.n…

力扣日记1.11-【二叉树篇】450. 删除二叉搜索树中的节点

力扣日记:【二叉树篇】450. 删除二叉搜索树中的节点 日期:2024.1.11 参考:代码随想录、力扣 450. 删除二叉搜索树中的节点 题目描述 难度:中等 给定一个二叉搜索树的根节点 root 和一个值 key,删除二叉搜索树中的 key…

多态、抽象类和接口(深拷贝和浅拷贝)

目录​​​​​​​ 前言: 多态: 多态的定义: 向上转型: 方法重写: 再看toString方法: 动态绑定: 向下转型: 小练习: 抽象类: 什么是抽象类&am…

【大数据进阶第三阶段之Hive学习笔记】Hive安装

目录 1、环境准备 2、下载安装 3、配置环境变量 4、配置文件 4.1、配置hive-env.sh ​编辑4.2、配置hive-site.xml 5、上传配置jar 6、启动 1、环境准备 安装hadoop 以及 zookeeper、mysql 【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建-CSDN博客 《z…

HDFS相关API操作

文章目录 API文档环境配置API操作准备工作创建文件夹文件上传文件下载文件删除文件的更名和移动获取文件详细信息 API文档 HDFS API官方文档:https://hadoop.apache.org/docs/r3.3.1/api/index.html 环境配置 将Hadoop的Jar包解压到非中文路径(例如D:…

静态网页设计实践(HTML+CSS)

一、前端程序员必会三大编程语言 (一)HTML(.html/.htm) 超文本标记语言(HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。HTML是一种基础技术,常与CSS、Ja…

centos 8.0 安装sysbench 1.0.17

序号步骤说明执行命令执行结果备注1 下载并解压sysbench-1.0.17.zip sysbench-1.0.17.zip2安装依赖文件 yum install automake libtool -y yum install /usr/include/libpq-fe.h 3安装sysbench cd sysbench-1.0.17 ./autogen.sh ./configure \ --prefix/sysbench \ --with-pgsq…

【Python机器学习】决策树集成——梯度提升回归树

理论知识: 梯度提升回归树通过合并多个决策树来构建一个更为强大的模型。虽然名字里有“回归”,但这个模型既能用于回归,也能用于分类。与随机森林方法不同,梯度提升采用连续的方式构造树,每棵树都试图纠正前一…