探索scikit-learn的datasets模块:数据集的加载与使用

news/2024/10/20 17:26:45/

引言

在机器学习和数据分析领域,数据集的选择和准备是至关重要的一步。scikit-learn库的datasets模块为我们提供了多种内置的数据集,方便我们进行模型训练和测试。这些数据集既有大型的数据集,也有便于教学和初步探索的小型数据集。本文将重点介绍这些小型数据集的载入、bunch数据类型以及以鸢尾花(Iris)数据集为例的使用方法。

datasets模块简介

scikit-learn的datasets模块包含了多种数据集,其中既有小型的数据集,也包含大型的数据集。小型数据集通常用于教学和示例,而大型数据集则用于更复杂的模型训练和性能评估。

大型数据集的载入

大型数据集的载入方法是

sklearn.datasets.fetch_*(data_home=None,subset='train'/'test'/'all')

*代表的是将要载入的数据集的名称;subset中的值代表将下载的数据集作为训练集、测试集或者都作为。 

小型数据集的载入

小型数据集的载入方法是

sklearn.datasets.load_*()

‘*’代表数据集的名称 

以下是一些常用的函数:

`load_iris()`:加载鸢尾花数据集
`load_digits()`:加载手写数字数据集
`load_linearly_separable()`:加载线性可分的数据集
`load_boston()`:加载波士顿房价数据集

Bunch数据类型

我们从数据集中获取的数据都是Bunch类型的数据;

Bunch对象是一种继承自字典的数据类型,它有类似于字典的数据结构,它允许我们以键值对的形式存储和访问数据。以下是Bunch对象中常见的键及其代表的意义:

 data:特征数据,通常是一个二维数组,每行表示一个样本,每列表示一个特征。
 target:目标数据,即每个样本的标签或类别。
 feature_names:特征名称,对应`data`数组中的每一列。
 target_names:目标名称,对应`target`数组中的每个类别。
 DESCR:数据集描述,提供有关数据集的详细信息。

鸢尾花数据集的使用示例

鸢尾花数据集是最著名的机器学习数据集之一,它包含了150个鸢尾花样本,每个样本有4个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度),以及一个目标标签(鸢尾花的种类)。

以下是如何使用`load_iris()`函数加载鸢尾花数据集,并探索其结构的示例代码:

from sklearn.datasets import load_iris# 加载鸢尾花数据集
iris = load_iris()# 查看数据集描述
print(iris.DESCR)# 查看特征数据
print(iris.data)# 查看目标数据
print(iris.target)# 查看特征名称
print(iris.feature_names)# 查看目标名称
print(iris.target_names)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

结论

scikit-learn的datasets模块为我们提供了丰富的数据集资源,特别是小型数据集,非常适合用于教学和初步探索。通过理解`Bunch`数据类型和使用鸢尾花数据集的示例,我们可以更好地掌握如何加载和使用这些内置数据集,从而为机器学习项目打下坚实的基础。

 


http://www.ppmy.cn/news/1538303.html

相关文章

【LeetCode】动态规划—188. 买卖股票的最佳时机 IV(附完整Python/C++代码)

动态规划—188. 买卖股票的最佳时机 IV 题目描述前言基本思路1. 问题定义交易规则: 2. 理解问题和递推关系两种情况:状态定义:状态转移方程:初始条件: 3. 解决方法动态规划方法特殊情况:当 k 大于等于 pric…

探索NVIDIA GPU PeerAccess的访问范围如何突破PCIE Bar空间大小

探索NVIDIA GPU PeerAccess的访问范围如何突破PCIE Bar空间大小 一.相关链接二.观察到的现象三.升级到cuda_12.6.2[可选]四.安装open-gpu-kernel-modules[可选,如果需要调试NV驱动源码]五.测试Kernel中访问Host内存以及H2D六.准备pcm,监控HOST Memory的带宽,用来确定PeerAccess…

OceanBase + DolphinScheduler,搭建分布式大数据调度平台的实践

本文整理自白鲸开源联合创始人,Apache DolphinScheduler PMC Chair,Apache Foundation Member 代立冬的演讲。主要介绍了DolphinScheduler及其架构、DolphinScheduler与OceanBase 的联合大数据方案。 DolphinScheduler是什么? Apache Dolphi…

如何使用Colly库进行大规模数据抓取?

在互联网时代,数据的价值日益凸显,大规模数据抓取成为获取信息的重要手段。Go语言因其高效的并发处理能力,成为编写大规模爬虫的首选语言。Colly库作为Go语言中一个轻量级且功能强大的爬虫框架,能够满足大规模数据抓取的需求。本文…

UDP和TCP的区别、网络编程(UDP回显服务器、TCP回显服务器)

目录 一、什么是网络编程 二、网络编程的内容概念 接受端和发送端 请求和响应 服务端和客户端 三、UDP和TCP协议的区别 四、UDP网络编程的类和函数(回显服务器) DatagramSocket DatagramPacket InetSocketAddress 基于UDP的回显服务器和客户…

电脑查不到IP地址是什么原因?怎么解决

在日常使用电脑的过程中,有时会遇到无法查询到电脑IP地址的情况,这可能会影响到网络的正常使用。本文将探讨电脑查不到IP地址的可能原因,并提供相应的解决方案。 一、原因分析 ‌网络连接问题‌:首先,网络连接不稳定或…

华为高频手撕冲刺

简单题 两数之和 方法一,暴力破解,时间复杂度O(n^2),空间复杂度O(1) class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:nlen(nums)for i in range(n):for j in range(i1,n):if nums[i]nums[j]target:retur…

Meta 发布 Quest 3S 头显及 AR 眼镜原型:开启未来交互新视界

简介 在科技的浪潮中,Meta 始终站在创新的前沿,不断为我们带来令人惊叹的虚拟现实和增强现实体验。2024 年 10 月 6 日,让我们一同聚焦 Meta 最新发布的 Quest 3S 头显及 AR 眼镜原型(Orion),探索这两款产品…