Python机器学习基础(三)---数据预处理

news/2024/12/28 9:52:40/

一.数据预处理作用

数据预处理会将选定的数据转换为我们可以使用的形式或可以提供给ML算法的形式,以使其符合机器学习算法的期望。

二.数据处理的常用方法

1.规范化

数据规范化是使属性数据按比例缩放,这样就将原来的数值映射到一个新的特定区域中,包括归一化,标准化等。

1.1.归一化

1.1.1:概念

把数据变成(0,1)或者(1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

1.1.2:MinMaxScaler 归一

将数据缩放到指定的范围内。它通过对数据进行线性变换,将数据映射到指定的最小值和最大值之间。

在这里插入图片描述

  • 代码:
path=r"D:\DevelopWorkSpace\vsCodeWorkSpaces\python\pythonDemo\数据集\kindey stone urine analysis.csv"
names =["比重","氢离子的负对数","渗透压","电导率","尿素浓度","钙浓度","结果"]
data=read_csv(path,names=names)
print(data)#-------数据截取--------------------
# data1=data.iloc[:,0:6]
# print("data1-------------------------------")
# print(data1)
#gravity,ph,osmo,cond,urea,calc,target
data2=data.loc[:,["比重","氢离子的负对数","渗透压","电导率","尿素浓度","钙浓度","结果"]]
print("data2-------------------------------")
print(data2[0:10])
array = data2.values#"比重","氢离子的负对数","氢离子的负对数","电导率","尿素浓度","钙浓度"
#-------数据归一化
#通过对原始数据进行变换把数据映射到(默认为[0,1])之间
data_scaler = preprocessing.MinMaxScaler(feature_range=(0,1))
data_rescaled = data_scaler.fit_transform(array)
set_printoptions(precision=1)
print ("数据归一化:\n", data_rescaled[0:10])
  • 数据集(10行):
data2-------------------------------比重  氢离子的负对数   渗透压   电导率  尿素浓度   钙浓度  结果
0  1.021     4.91   725  14.0   443  2.45   0
1  1.017     5.74   577  20.0   296  4.49   0
2  1.008     7.20   321  14.9   101  2.36   0
3  1.011     5.51   408  12.6   224  2.15   0
4  1.005     6.52   187   7.5    91  1.16   0
5  1.020     5.27   668  25.3   252  3.34   0
6  1.012     5.62   461  17.4   195  1.40   0
7  1.029     5.67  1107  35.9   550  8.48   0
8  1.015     5.41   543  21.9   170  1.16   0
9  1.021     6.13   779  25.7   382  2.21   0
  • 结果:
数据归一化:[[0.5 0.  0.5 0.3 0.7 0.2 0. ][0.3 0.3 0.4 0.5 0.5 0.3 0. ][0.1 0.8 0.1 0.3 0.1 0.2 0. ][0.2 0.2 0.2 0.2 0.4 0.1 0. ][0.  0.6 0.  0.1 0.1 0.1 0. ][0.4 0.2 0.5 0.6 0.4 0.2 0. ][0.2 0.3 0.3 0.4 0.3 0.1 0. ][0.7 0.3 0.9 0.9 0.9 0.6 0. ][0.3 0.2 0.3 0.5 0.3 0.1 0. ][0.5 0.4 0.6 0.6 0.6 0.1 0. ]]
1.1.3 :L1、L2范数归一化
  • 描述:

        L1范数:每个向量绝对值和

        L2范数:每个向量平方和开根 

                        

        L1范数归一:向量值/每个向量绝对值和

        L2范数归一:向量值/每个向量平方和开根 

  • 代码:

               

#---L1归一
Data_normalizer_l1 = preprocessing.Normalizer(norm='l1').fit(array)
Data_normalized_l1 = Data_normalizer_l1.transform(array)
set_printoptions(precision=2)
print ("L1归一", Data_normalized_l1 [0:3])
#---L2归一
Data_normalizer_l2 = preprocessing.Normalizer(norm='l2').fit(array)
Data_normalized_l2 = Data_normalizer_l2.transform(array)
set_printoptions(precision=3)
print ("L2归一", Data_normalized_l2 [0:3])
  • 数据集: 
data2-------------------------------比重  氢离子的负对数   渗透压   电导率  尿素浓度   钙浓度  结果
0  1.021     4.91   725  14.0   443  2.45   0
1  1.017     5.74   577  20.0   296  4.49   0
2  1.008     7.20   321  14.9   101  2.36   0
3  1.011     5.51   408  12.6   224  2.15   0
4  1.005     6.52   187   7.5    91  1.16   0
5  1.020     5.27   668  25.3   252  3.34   0
6  1.012     5.62   461  17.4   195  1.40   0
7  1.029     5.67  1107  35.9   550  8.48   0
8  1.015     5.41   543  21.9   170  1.16   0
9  1.021     6.13   779  25.7   382  2.21   0
  • L1结果:(每行绝对值相加=1)
[[8.58e-04 4.12e-03 6.09e-01 1.18e-02 3.72e-01 2.06e-03 0.00e+00][1.12e-03 6.35e-03 6.38e-01 2.21e-02 3.27e-01 4.97e-03 0.00e+00][2.25e-03 1.61e-02 7.17e-01 3.33e-02 2.26e-01 5.27e-03 0.00e+00][1.55e-03 8.43e-03 6.25e-01 1.93e-02 3.43e-01 3.29e-03 0.00e+00][3.42e-03 2.22e-02 6.36e-01 2.55e-02 3.09e-01 3.94e-03 0.00e+00][1.07e-03 5.52e-03 7.00e-01 2.65e-02 2.64e-01 3.50e-03 0.00e+00][1.49e-03 8.25e-03 6.77e-01 2.55e-02 2.86e-01 2.05e-03 0.00e+00][6.02e-04 3.32e-03 6.48e-01 2.10e-02 3.22e-01 4.96e-03 0.00e+00][1.37e-03 7.29e-03 7.31e-01 2.95e-02 2.29e-01 1.56e-03 0.00e+00][8.54e-04 5.13e-03 6.51e-01 2.15e-02 3.19e-01 1.85e-03 0.00e+00]]
  • L2结果:(每行平方和相加=1)
L2归一
[[1.202e-03 5.778e-03 8.532e-01 1.648e-02 5.213e-01 2.883e-03 0.000e+00][1.567e-03 8.846e-03 8.893e-01 3.082e-02 4.562e-01 6.920e-03 0.000e+00][2.992e-03 2.137e-02 9.527e-01 4.422e-02 2.998e-01 7.004e-03 0.000e+00][2.171e-03 1.183e-02 8.762e-01 2.706e-02 4.810e-01 4.617e-03 0.000e+00][4.827e-03 3.131e-02 8.981e-01 3.602e-02 4.371e-01 5.571e-03 0.000e+00][1.428e-03 7.377e-03 9.350e-01 3.541e-02 3.527e-01 4.675e-03 0.000e+00][2.020e-03 1.122e-02 9.204e-01 3.474e-02 3.893e-01 2.795e-03 0.000e+00][8.321e-04 4.585e-03 8.951e-01 2.903e-02 4.447e-01 6.857e-03 0.000e+00][1.782e-03 9.501e-03 9.536e-01 3.846e-02 2.985e-01 2.037e-03 0.000e+00][1.176e-03 7.062e-03 8.974e-01 2.961e-02 4.401e-01 2.546e-03 0.000e+00]]

1.2.标准化

sklearn 库的 preprocessing的StandardScaler(z-score 标准化

1.2.1.概念:

标准化需要计算特征的均值和标准差,公式表达为:

标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如[0, 1]等。

1.2.2.示例:
#标准化
data_scaler = preprocessing.StandardScaler().fit(array)
data_rescaled = data_scaler.transform(array)
set_printoptions(precision=2)
print ("标准化:\n", data_rescaled [0:10])
1.2.3.结果:
标准化:[[ 0.4  -1.55  0.48 -0.86  1.35 -0.52 -0.87][-0.15 -0.4  -0.15 -0.1   0.23  0.11 -0.87][-1.41  1.63 -1.24 -0.75 -1.27 -0.55 -0.87][-0.99 -0.72 -0.87 -1.04 -0.33 -0.61 -0.87][-1.82  0.68 -1.8  -1.69 -1.34 -0.92 -0.87][ 0.26 -1.05  0.23  0.57 -0.11 -0.25 -0.87][-0.85 -0.57 -0.64 -0.43 -0.55 -0.85 -0.87][ 1.51 -0.5   2.09  1.91  2.17  1.34 -0.87][-0.43 -0.86 -0.3   0.14 -0.74 -0.92 -0.87][ 0.4   0.14  0.7   0.62  0.89 -0.6  -0.87]]

2.  2值化

2.1.概念:

使数据二进制化。我们可以使用二进制阈值来使数据二进制。高于该阈值的值将转换为1,低于该阈值的值将转换为0。

例如,如果我们选择阈值= 0.5,则其上方的数据集值将变为1,而低于此值的数据集值将变为0。这就是为什么我们可以将其称为 二进制化数据或 阈值数据。当我们在数据集中有几率并希望将其转换为清晰的值时,此技术很有用。

2.2.示例:

#2值化
binarizer = preprocessing.Binarizer(threshold=50).fit(array)
Data_binarized = binarizer.transform(array)
print ("2值化:\n", Data_binarized [0:10])

2.3.结果:

​
2值化:[[0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.]]​

3.标签编码:

PS1:大多数sklearn函数都希望带有数字标签而不是单词标签的数据。因此,我们需要将此类标签转换为数字标签。此过程称为标签编码。

PS2:因为回归和机器学习都是基于数学函数方法的,所以当我们要分析的数据集中出现了类别数据(categorical data),此时的数据是不理想的,因为我们不能用数学的方法处理它们。例如,在处理男和女两个性别数据时,我们用0和1将其代替,再进行分析。由于这种情况的出现,我们需要可以将文字数字化的现成方法。

3.1.LabelEncoder :

3.1.1.概念:
  • LabelEncoder 将一列文本数据转化成数值。
  • 例如,[red, blue, red, yellow] = [0,2,0,1]
3.1.2.示例:
#标签编码
input_labels = ['猫','狗','猫','兔子','老虎','鸭子','大鹅']
encoder = preprocessing.LabelEncoder()labelsList=encoder.fit_transform(input_labels)
print("标签:\n",input_labels)
print("编码后:\n",labelsList)test_labels=['猫','兔子','老虎']
testLabelList=encoder.transform(test_labels)
print("测试数据:\n",test_labels)
print("验证编码:\n",testLabelList)
test_labels2=[0,3,5]
testLabelList2=encoder.inverse_transform(test_labels2)
print("测试数据:\n",test_labels2)
print("验证解码:\n",testLabelList2)
3.1.3.结果:
标签:['猫', '狗', '猫', '兔子', '老虎', '鸭子', '大鹅']
编码后:[3 2 3 0 4 5 1]
测试数据:['猫', '兔子', '老虎']
验证编码:[3 0 4]
测试数据:[0, 3, 5]
验证解码:['兔子' '猫' '鸭子']

3.2.OneHotEncoder:

3.2.1.概念:
  • OneHotEncoder 将一列文本数据转化成一列或多列只有0和1的数据。
  • 例如,[red, blue, red, yellow] = [1,2,1,3] 会被转化成3列用0和1表示的数据列
  • 相对于转换成0、1、2、3 ,数值本身也有大小,所以在标签值大小影响后续计算时,OneHotEncoder有优势
3.2.2.示例:
  • #OneHotEncoder-----sklearn
#OneHotEncoder
input_labels = ['猫','狗','猫','兔子','老虎','鸭子','大鹅']
#input_labels = ['red','green','blue','black']
encoder2 = preprocessing.OneHotEncoder()
import numpy as np
arr=(np.array(input_labels)).reshape(-1, 1)
# PS:不能直接编码数组 需要转换
# OneHotLabel=encoder2.fit_transform(input_labels)
# 报错:
# Reshape your data either using array.reshape(-1, 1) 
# if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
print(arr)
OneHotLabel=encoder2.fit_transform(arr).toarray()
print(OneHotLabel)
  • #OneHotEncoder-----pandas

#OneHotEncoder-----pandas
import pandas as pd
# 创建一个包含标签的数据集
input_labels = ['猫','狗','猫','兔子','老虎','鸭子','大鹅']
# 对 'color' 列进行独热编码
one_hot_encoded = pd.get_dummies(input_labels)
print(one_hot_encoded)
3.2.3.结果:
  • #OneHotEncoder-----sklearn
原数组:['猫', '狗', '猫', '兔子', '老虎', '鸭子', '大鹅']
转换后数组:[['猫']['狗']['猫']['兔子']['老虎']['鸭子']['大鹅']]
编码后:[[0. 0. 0. 1. 0. 0.][0. 0. 1. 0. 0. 0.][0. 0. 0. 1. 0. 0.][1. 0. 0. 0. 0. 0.][0. 0. 0. 0. 1. 0.][0. 0. 0. 0. 0. 1.][0. 1. 0. 0. 0. 0.]]
  • #OneHotEncoder-----pandas
   兔子  大鹅  狗  猫  老虎  鸭子
0   0   0  0  1   0   0
1   0   0  1  0   0   0
2   0   0  0  1   0   0
3   1   0  0  0   0   0
4   0   0  0  0   1   0
5   0   0  0  0   0   1
6   0   1  0  0   0   0

3.3:OrdinalEncoder

3.3.1:概念:

将分类特征转化为整数数组,它的输入应该是整数或字符串的类数组,也可以理解为矩阵,每一列表示一个特征,每一个特征中的数字或者是字符串表示一类特征,也就是分类(离散)特征所接受的值。特征按顺序转换为有序整数。结果就是每个特征对应一个整数列,取值范围0到n_categories -1。

3.3.2:示例:
#OrdinalEncoder-----sklearn
input_arrays =  [['猫',2],['狗',8],['猫',7],['兔子',6],['老虎',5],['鸭子',4],['大鹅',3]]encoder3 = preprocessing.OrdinalEncoder()print("原数组:\n",input_arrays)
OrdinalArr=encoder3.fit_transform(input_arrays)
print("编码后:\n",OrdinalArr)
testArr =[[2,4]]
print("测试数组:\n",testArr)
print("解码后:\n",encoder3.inverse_transform(testArr))

3.3.3:结果:
原数组:[['猫', 2], ['狗', 8], ['猫', 7], ['兔子', 6], ['老虎', 5], ['鸭子', 4], ['大鹅', 3]]
编码后:[[3. 0.][2. 6.][3. 5.][0. 4.][4. 3.][5. 2.][1. 1.]]
测试数组:[[2, 4]]
解码后:[['狗' 6]]

3.4.LabelEncoder和OrdinalEncoder区别

LabelEncoder和OrdinalEncoder类似,都可以将分类型变量转化成数值型索引变量,区别在于OrdinaEncoder可以直接处理shape为[m,n]的数组或类数组对象,而LabelEncoder只能处理[m,]的一维对象。

既:

LabelEncoder用来编码结果Target为字符标签情况

OrdinalEncoder用来编码矩阵特征为字符串,非数字的情况

三.参考

 PS:关于标准化 归一化概念混乱的看这篇,都是因为中英文翻译导致的概念混乱。

http://t.csdnimg.cn/BizzI

 LabelEncoder 和OneHotEncoder概念来源:

数据预处理之将类别数据数字化的方法 —— LabelEncoder VS OneHotEncoder - 知乎


http://www.ppmy.cn/news/1216735.html

相关文章

轻量封装WebGPU渲染系统示例<28>- MRT纹理(源码)

当前示例源码github地址: https://github.com/vilyLei/voxwebgpu/blob/feature/rendering/src/voxgpu/sample/MRT.ts 当前示例运行效果: 此示例基于此渲染系统实现,当前示例TypeScript源码如下: const colorRTTTex { diffuse: { uuid: "colorRTT", rtt…

SAP-SD-外向交货单交期不符

创建外向交货单时报错 销售订单的交期还没到,所以不能做外向交货单 但是货已经加工完成,现在想交货 查看销售订单的交货期为12月15日(va03) 在VL01N里修改“选择日期为12月15日”就可以了。

DevOps系列---【jenkinsfile使用sshpass发送到另一台服务器】

1.首先在宿主机安装sshpass 2.把物理机的sshpass复制到容器中 which sshpass cp $(which sshpass) /usr/local/app/ docker cp sshpass 容器id:/usr/local/bin/sshpass 3.在jenkinsfile中添加 #在stages中添加stage stage(部署TEST服务){steps{sh "sshpass -p root1234 sc…

【移远QuecPython】EC800M物联网开发板的音乐播放(PWM蜂鸣器播放生日快乐歌,Sound模块播放音频)

【移远QuecPython】EC800M物联网开发板的音乐播放(PWM蜂鸣器播放生日快乐歌,Sound模块播放音频) 效果: 【移远QuecPython】EC800M开发板外置功放重金属和PWM音调(BUG调试记录) 文章目录 PWM蜂鸣器播放播放…

VISA机制

需要用到VISA的3种机制:属性机制、锁定机制和事件机制。以写资源为例,3种机制的作用如图 (1)属性机制 属性机制用来控制资源的各种属性,这些属性分为两种:只读属性和可读可写属性。 (2&#xf…

Sui上TVL突破1.28亿美金,浅谈DeFi续创新高背后的基础知识

根据财富商业洞察研究,DeFi市场预计从2022年的555.8亿美元增长到2030年的3370.4亿美元。推动这一增长的活动包括对token的交易、借贷和借款,这通常是点对点的,无需传统金融机构的参与。随着Sui网络于今年五月份启动主网和其SUI token&#xf…

PDF翻页电子书制作教程,超简单噢~

PDF翻页电子书是一种可以在电脑、平板或手机上阅读的电子书,只要有网,可随时随地查看的,并且它还可以模拟真实的翻页效果,给读者展示出更好的阅读体验。那么,PDF翻页电子书如何制作呢? 其实制作这种PDF翻页…

点燃初冬!中海达亮相第一届中国测绘地理信息大会

11月8日,第一届中国测绘地理信息大会在浙江德清国际展览中心拉开帷幕。中海达携“海陆空、室内外”产品以及解决方案亮相展会,受到了与会领导、业界同仁、行业用户的高度关注。 ▲第一届中国测绘地理信息大会开幕式现场 本届大会以“科技引领&#xff0c…