勇闯机器学习(第二关-数据集使用)

devtools/2024/12/23 6:30:30/

以下内容,皆为原创,重在无私分享高质量知识,制作实属不易,请点点关注。

好戏开场了~~~(这关涉及到了加载数据集的代码,下一关,教你们安装机器学习库)

一.数据集

  • 这一关的目标
    • 知道数据集被分为训练集和测试集
    • 会使用sklearn的数据集                                                      

   1.可用数据集 

        scikit-learn网址:scikit-learn: machine learning in Python — scikit-learn 1.5.1 documentation

        UCI网址:UCI Machine Learning Repository

        Kaggle网址:Bohrium

  • scikit-learn        数据量小,方便学习
    • UCI            收录360个数据集,覆盖科技、生活、经济等领域,数据量几十万。
    • Kaggle       大数据竞赛平台,真实数据,数据量巨大         

 如以下图所示,这个就是UCI机器学习的网站和scikit-learn机器学习的网站。

二.使用sclearn数据集

        1.scikit-learn数据集API介绍

# 用sklearn中的datasets方法(sklearn.datasets)1.加载获取流行数据集2.datasets.load_*()获取小规模数据集,数据包含在datasets中3.datasets。fetch_*(data_home=None)获取大规模数据集,需要从网上下载,函数第一个参数是data_home,表示数据集下载的目录。你可以自己定义位置。C盘D盘都行

         2.sklearn小数据集

          加载并返回鸢尾花数据集。当然还有一个常见的波士顿房价数据集,但是

`load_boston` has been removed from scikit-learn since version 1.2.这个是我在加载波士顿房价数据集,出现的报错,所以要注意好自己的版本。
import sklearn
from sklearn.datasets import load_iris# Load the iris dataset
print(sklearn.datasets.load_iris())

      这个就是我在jupyter notebook里,打印出来鸢尾花的数据集。

鸢尾花数据集
名称数量
类别

3

特征4
样本数量150
每个类别数量5

3.sklearn大数据集  

        加载大数据集,我们就要用fetch_*,用于加载大数据集。那个*指的是加载的数据集的名称。

       3.1 sklearn数据集返回值介绍

                load和fetch返回的数据类型datasets.base.Bunch(字典格式)

  • data:特征数据数组
  • target:目标数组(标签数组)
  • DESCR:数据描述
  • feature_names:特征名
  • target_names:目标名(标签名)                
from sklearn.datasets import load_iris
# 将加载的数据集传给iris变量
iris = load_iris()
print("鸢尾花的数据集:\n", iris)
print("查看鸢尾花的特征值:\n", iris["data"])
print("查看鸢尾花的目标值:\n", iris.target)
print("查看鸢尾花特征的名字:\n", iris.feature_names)
print("查看鸢尾花目标值的名字:\n", iris.target_names)
print("查看数据集描述:\n", iris["DESCR"])

                字典的元素是键值对的形式,所以获取值的方式有两种:

dict['key'] = value
bunch.key = value

三.训练模型

        思考:要不要用全部数据来训练一个模型??

        内心独白:肯定不行啊,你要一部分来进行模型评估啊,看你的模型好不好。

        所以数据集,分为训练集(用于训练,构建模型)测试集(在模型核验时,用于评估模型是否有效)

        划分的标准(上下组合):

                        1.训练数据:70%        80%        75%

                        2.测试数据:30%        20%        30%

        我们希望训练的模型好一点,所以让训练集多一点。

# 导入加载鸢尾花数据集的方法
from sklearn.datasets import load_iris
# 导入划分数据集的方法
from sklearn.model_selection import train_test_split# 加载鸢尾花数据
iris = load_iris()# 有了加载数据,才能划分数据集
# 这四个分别对应后面方法的四个返回值(训练集的特征值,测试集的特征值,训练集的目标值, 测试集的目标值)
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print("训练集的特征值", x_train, x_train.shape)

四.懵笔时刻

        在划分数据集时,那四个变量为什么这么命名?

                不错,问得好。举个例子,在数学中,我们都是有X值去求Y值,那么Y就是我们的目标值。所以X就是数据集的特征值,Y就是数据集的目标值。后面方法里的参数test_size是测试集的大小,一般为float类型(20%,0.2,以此类推)。random_state是随机数种子,不同的种子造成不同的随机采样结果,相同的种子采样结果相同。

        为什么要用四个变量,而不是三个或者五个变量?

        

        因为那个方法就是返回的四个值啊,我能有什么办法!!what can I say?!!

        return 训练集的特征值,测试集的特征值。训练集的目标值,测试集的目标值。

五.谢谢大家的观看,后续持续分享高质量内容~~~~ 


http://www.ppmy.cn/devtools/97613.html

相关文章

Oracle SQL - 合并重叠的期间

数据和目标 有如下数据存储了各组件的有效期间(此处起止日期用数字代替以便查阅),目标为将有重叠的期间合并到一起。 SQL> SELECT * FROM demo_eff_periods;COMPONENT_ITEM_ID EFFECTIVITY_DATE DISABLE_DATE ----------------- -------…

HCIE冲刺-----------论述解析

X园区 1.防火墙放行OSPF 2.trunk口阻塞vlan1 3.关闭VPN防环 4.ospf不通检查NSSA区域配置 5.重定向可以在三层口或二层口配置 6.vlan60在ospf的相关配置 Z园区 1.mpls不通检查lo0口配置 2.isis不通检查接口IP与lldp连接 3.确认同级RR还是备份RR 4.确认策略矩阵的访问 python 1…

【Nginx】实现 FastCGI

为什么会有 FastCGI ? CGI 协议虽然解决了语言解析器和 Web Server 之间通讯的问题,但是它的效率很低,因为 Web Server每收到一个请求都会创建一个CGI 进程, PHP 解析器都会解析 php.ini 文件,初始化环境&#xff0c…

树莓派安装nodejs

要在树莓派上安装特定版本的 Node.js(v 16.18.0),你可以通过使用 NodeSource 仓库来实现。以下是安装步骤: 首先,通过 SSH 连接到你的树莓派,并更新包列表: sudo apt update安装 Node.js 之前&a…

利用开源项目加速AI+绘画设计与AI+视频生成的商业化进程

随着生成式人工智能技术的发展,越来越多的工具被开发出来,用于辅助创意工作者创作出令人惊叹的作品。本文将介绍两个开源项目——一个专注于将ComfyUI工作流转换为商业化的移动应用和网页,另一个则聚焦于利用AI技术简化视频创作过程。这两个项目不仅为创作者提供了强大的工具…

MySQL:从入门到放弃

基础查询 MySQL:基础查询 Mybatis:基础巩固-DDL 项目实战 MySQL:按照日期分组查询 查询开始时间与结束时间在指定的日期范围之内,并且结束时间可以为NULL的数据

在Python中使用OpenCV录制视频并保存

在Python中使用OpenCV录制视频并保存的基本步骤如下: 使用cv2.VideoCapture(0)来获取默认摄像头。 使用cv2.VideoWriter来创建视频写入对象。 循环读取摄像头的帧,并使用write方法写入视频文件。 当不再需要视频写入对象时,使用release方法…

【功能】Lua层的全局事件管理系统

1.EventManager 全局的管理类 2.EventType 事件类型 3..Lua层Common工具目录去require对应文件目录的脚本文件 --事件类型 local EventType {TestMsg 1, }return EventType local EventManager class(); EventManager.msgMap {}local function HaveSameFunc(…