深度学习基础知识-02 数据预处理

server/2024/10/20 16:08:49/

深度学习的数据预处理通常包括:
1.数据清洗:去除错误或不完整的数据。
2.归一化:调整数据范围,如将像素值缩放到0-1。
3.数据增强:通过旋转、缩放等方法增加数据多样性。
4.数据划分:将数据分为训练集、验证集和测试集。
5.编码:将分类数据转换为机器学习模型可以处理的形式,如独热编码。

CSV文件预处理:
写入csv文件

import os  # 导入os模块,用于操作文件和目录# 创建一个名为'data'的目录,该目录位于当前工作目录的上一级目录中
# 如果目录已存在,exist_ok=True参数确保不会抛出错误
os.makedirs(os.path.join('..','data'),exist_ok=True)# 定义一个变量data_file,存储文件的完整路径
# 文件名为'home_tiny.txt',位于上一级目录中的'data'文件夹内
data_file=os.path.join('..','data','home_tiny.txt')# 使用with语句打开文件,确保文件操作完成后自动关闭文件
# 'w'模式表示写入模式,如果文件已存在,则覆盖原有内容
with open(data_file,'w') as f:f.write('NumRooms,Ally,price\n')f.write('NA,PAve,127500\n')f.write('2,NA,197500\n')f.write('5,NA,177500\n')f.write('NA,NA,165500\n')

读csv文件

import pandas as pddata =pd.read_csv('../data/home_tiny.txt') # 使用pandas的read_csv函数读取位于上一级目录中'data'文件夹内的'home.tiny.txt'文件
print(data)

数据补全:注意,“NaN”项代表缺失值。 为了处理缺失的数据,典型的方法包括插值法和删除法, 其中插值法用一个替代值弥补缺失值,而删除法则直接忽略缺失值。

通过位置索引iloc,我们将data分成inputs和outputs, 其中前者为data的前两列,而后者为data的最后一列。 对于inputs中缺少的数值,我们用同一列的均值替换“NaN”项。

# 使用iloc选择器从data中提取前两列作为输入特征(inputs)
# 即选择第0列和第1列(注意Python是从0开始计数的)
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]# 对inputs中的缺失值进行填充
# 使用fillna方法,将缺失值替换为每列的平均值
inputs = inputs.fillna(inputs.mean())

对于inputs中的类别值或离散值,我们将“NaN”视为一个类别。 由于“巷子类型”(“Alley”)列只接受两种类型的类别值“Pave”和“NaN”, pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。 巷子类型为“Pave”的行会将“Alley_Pave”的值设置为1,“Alley_nan”的值设置为0。 缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。

# 使用get_dummies函数对inputs进行独热编码
# dummy_na=True表示将缺失值也作为一个类别进行编码
inputs = pd.get_dummies(inputs, dummy_na=True)NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1

现在inputs和outputs中的所有条目都是数值类型,它们可以转换为张量格式。 当数据采用张量格式后,可以在后续进一步操作。

# 将输入特征inputs转换为NumPy数组,并指定数据类型为float
# to_numpy()函数将DataFrame转换为数组,dtype=float确保数据类型为浮点数
X = np.array(inputs.to_numpy(dtype=float))# 将输出标签outputs转换为NumPy数组,并指定数据类型为float
# to_numpy()函数将DataFrame转换为数组,dtype=float确保数据类型为浮点数
y = np.array(outputs.to_numpy(dtype=float))(array([[3., 1., 0.],[2., 0., 1.],[4., 0., 1.],[3., 0., 1.]], dtype=float64),array([127500., 106000., 178100., 140000.], dtype=float64))

热编码(One-Hot Encoding)是一种处理分类数据的方法,常用于机器学习和统计分析中。其目的是将分类变量(如文本或标签)转换为一种格式,使得这些变量可以被算法有效处理。


http://www.ppmy.cn/server/133384.html

相关文章

使用LLM和RAG进行数据库查询(文本到SQL)的四大挑战及解决方案

大型语言模型(LLM)的出现展示了机器理解自然语言的能力。这些能力帮助工程师完成了许多令人惊叹的工作,比如编写代码文档和代码审查,而最常见的用例之一是代码生成;GitHub Copilot展示了AI理解工程师代码生成意图的能力…

微信开发者工具:音乐小程序报错

报错信息 GET http://localhost:3000/1.mp3 net::ERR CONNECTION REFUSED (env: Windows,mp,1.06.2303220;lib:3.6.0) 原因:小程序没有直接获取本地文件,为了提高访问速度,而采用放到网络服务器中网络访问的方式获取文件内容 解决办法&#…

为图片添加水印(Python)

简介 刚好学了一下tkinter.colorchooser,然后…… 优化了以前的代码,不过仍然是shi 功能 可自由添加水印内容、选择颜色、字体及字体大小、图片、水印的x、y位置 代码 # -*- coding: utf-8 -*- # Environment PyCharm # File_name visibleWat…

python 作业1

任务1: python为主的工作是很少的 学习的python的优势在于制作工具,制作合适的工具可以提高我们在工作中的工作效率的工具 提高我们的竞争优势。 任务2: 不换行 换行 任务3: 安装pycharm 进入相应网站Download PyCharm: The Python IDE for data science and we…

输入输出--I/O流【C++提升】

1.1基础知识&#xff1a; 在C中&#xff0c;输入输出&#xff08;IO&#xff09;流是通过标准库中的 <iostream> 头文件来处理的。C 提供了几种基本的输入输出流类&#xff0c;最常用的有以下几种&#xff1a; std::cin&#xff1a;用于输入。std::cout&#xff1a;用于…

Vulhub Wakanda : 1靶机详解

1. 主机发现端口扫描目录扫描敏感信息获取 1.1. 主机发现 nmap -sn 192.168.7.0/24|grep -B 2 08:00:27:DB:19:701.2. 端口扫描 nmap 192.168.7.171 -p- -A1.3. 目录扫描 dirb http://192.168.7.1711.4. 敏感信息收集 whatweb http://192.168.7.1712. WEB打点寻找漏洞点 …

IC验证面试中常问知识点总结(八)附带详细回答!!!

16、 callback机制 16.1 callback机制有什么用? 程序的设计者有时不是程序的使用者,所以作为程序的使用者来说,总是希望程序的设计者能够提供一些接口来满足自己的应用需求。作为这两者之间的一个协调,callback机制出现了。 第一,callback机制可以提高验证平台的可重用性…

基于STM32单片机设计的矿山环境作业安全监测系统

文章目录 一、前言1.1 项目介绍【1】项目开发背景【2】设计实现的功能【3】项目硬件模块组成【4】需求总结1.2 设计思路1.3 系统功能总结1.4 开发工具的选择【1】设备端开发【2】上位机开发1.5 模块的技术详情介绍【1】BC26-NBIOT模块【2】DHT11温湿度模块【3】PM2.5粉尘模块二…