【机器学习】机器学习学习笔记 - 数据预处理 - 01

embedded/2024/10/22 8:00:30/

machine learning

  • 监督学习: 是指在有标记的样本(labeled samples)上建立机器学习的模型
  • 无监督学习: 是指在没有标记的样本上建立机器学习的模型
  • semi-supervised learning: 是指在部分标记样本上建立机器学习的模型
  • 强化学习: 是指在与环境交互的过程中,根据环境反馈来调整策略,以达到目标
  • 强化学习算法: 是指在与环境交互的过程中,根据环境反馈来调整策略,以达到目标的算法

pdf在线免费转word文档 https://orcc.online/pdf

数据预处理

  • 行: 样本; 列:特征

均值移除(标准化)

  • 均值移除(标准化): 平均值调整为 0, 标准差调整为 1
  • 由于一个样本的不同特征值差异较大,不利于使用现有机器学习算法进行样本处理
代码
# -*- coding: UTF-8 -*-import numpy as np
from sklearn import preprocessing# 导入数据
data = np.array([[3,-1.5,2,-5.4],[0,4,-0.3,2.1],[1,3.3,-1.9,-4.3]])
print("data:\n", data)# 数据预处理
data_standardized = preprocessing.scale(data)
print("preprocessing.scale:\n", data_standardized)
# 特征值的平均值, 几乎为0
print("Mean =", data_standardized.mean(axis=0))
# 标准差,都为1
print("Std deviation =", data_standardized.std(axis=0))
算法
均值为 0
a=17
b=20
c=23
# 计算均值
mean=(a+b+c)/3
# 例如有一列特征值表示年龄:[17,20,23]
mean=(17+20+23)/3=20
a1=17-20=-3
b1=20-20=0
c1=23-20=3
# 均值为0
方差为 1
a1=-3
b1=0
c1=3
s=std(a1,b1,c1)
result = [a1/s,b1/s,c1/s]

范围缩放

  • 数据点中每个特征的数值范围可能变化很大,因此,有时将特征的数值范围缩放到合理的大小是非常重要的
  • 特征缩放: 特征值缩放到 0~1 之间
代码
data_scaler = preprocessing.MinMaxScaler(feature_range=(0, 1))
data_scaled = data_scaler.fit_transform(data)
print("Min max scaled data =", data_scaled)

归一化

  • 归一化: 特征值缩放到 0~1 之间
  • 数据归一化用于需要对特征向量的值进行调整时,以保证每个特征向量的值都缩放到相同的数值范围。机器学习中最常用的归一化形式就是将特征向量调整为 L1 范数,使特征向量的数值之和为 1
  • 这个方法经常用于确保数据点没有因为特征的基本性质而产生较大差异,即确保数据处于同一数量级,提高不同特征数据的可比性
代码
data_scaler = preprocessing.normalizer(norm='l1').fit(data)
data_normalized = data_scaler.transform(data)
print("Normalized data =", data_normalized)

二值化

  • 二值化用于将数值特征向量转换为布尔类型向量
代码
data_binarized = preprocessing.Binarizer(threshold=1.4).transform(data)
print("Binarized data:\n", data_binarized)

独热编码

  • 独热编码是一种将离散型特征转换为二值型特征的技术,它将每个离散型特征的值转换为一个二值特征,并将其值设为 1,其他值设为 0
代码
encoder = preprocessing.OneHotEncoder()
encoder.fit([[0, 2, 1, 12], [1, 3, 5, 3], [2, 3, 2, 12], [1, 2, 4, 3]])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print("Encoded vector =", encoded_vector)

标记编码

  • 标记编码: 给定一个类别,将其转换为一个整数
  • 标记编码的优点: 编码后的数据更加易于理解和处理
  • 标记编码的缺点: 编码后的数据不易于理解和处理
from sklearn import preprocessing# 标记编码器
print("#"*10,"标记编码器", "#"*10)
label_encoder = preprocessing.LabelEncoder()
# 创建标记
input_classes = ['audi', 'ford', 'audi', 'toyota', 'ford', 'bmw']
# 标记编码
label_encoder.fit(input_classes)for i, item in enumerate(label_encoder.classes_):print(item, "\t=>\t", i)print("#"*10,"标记转数字", "#"*10)
labels = ['toyota', 'ford', 'audi']
encoded_labels = label_encoder.transform(labels)
print("Labels =", labels)
print("Encoded labels =", list(encoded_labels))

划分训练集与测试集

# 方法一,直接用包划分
from sklearn.model_selection import train_test_split# 划分训练集与测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=7)# 方法二,手工划分
# 划分训练集与测试集
X_train, X_test, y_train, y_test = X[0:100], X[100:], y[0:100], y[100:]# 取80%的样本作为训练数据
num_training = int(0.8 * len(X))
num_test = len(X) - num_training# 训练数据 80% reshape:(行数,列数)
# 行数:样本数
# 列数:特征数
X_train = np.array(X[:num_training]).reshape((num_training,1))
y_train = np.array(y[:num_training])# 测试数据 20%
X_test = np.array(X[num_training:]).reshape((num_test,1))
y_test = np.array(y[num_training:])

IT免费在线工具网 https://orcc.online


http://www.ppmy.cn/embedded/4490.html

相关文章

Liunx入门学习 之 基础操作指令讲解(小白必看)

股票的规律找到了,不是涨就是跌 一、Linux下基本指令 1.ls 指令 2.pwd 命令 3.cd 指令 4.touch 指令 5.mkdir 指令 6.rmdir指令 && rm 指令 7.man 指令 8.cp 指令 9.mv指令 10.cat 11.more 指令 12.less 指令 13.head 指令 14.tail 指令 15…

音视频、网络带宽等常用概念详解

1.aac音频参数解释 AAC帧大小为1024个sample:指AAC编码一般以1024个采样为一个音频帧。 采样率48khz:指1秒(即1000毫秒)采集48000次。 计算1秒有多少帧:48000 / 1024 46.875 a(用a表示计算结果&#xff0…

09篇 docker命令详解

1. docker run -d --name my_container -p 8080:80 my_image 这条命令会创建并启动一个后台运行的容器,其中-d代表以守护进程方式运行,--name用于指定容器名称,-p用于端口映射,将宿主机的8080端口映射到容器的80端口&#xff0c…

有回显命令执行-命令拼接+关键字绕过

[题目信息]: 题目名称题目难度有回显命令执行-命令拼接(训练题)2 [题目考点]: 远程命令执行漏洞,用户通过浏览器提交执行命令,由于服务器端没有针对执行函数做过滤,导致在没有指定绝对路径的…

【机器学习】探究Q-Learning通过学习最优策略来解决AI序列决策问题

꒰˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN …

短视频素材哪里去找?推荐几个视频素材免费下载的网站

高质量的资源,会让你的视频创作更加生动和具有吸引力。下面我为你介绍世界各地的优质无水印视频素材网站,以拓宽你的创作视野,帮助你在这个视觉革命的时代中脱颖而出。 1. 蛙学府(中国) 提供各种类别的优质高清视频素…

idm线程越多越好吗 idm线程数多少合适 IDM百度云下载 IDM下载器如何修改线程数

IDM(Internet Download Manager)是一款流行的网络下载器,它支持多线程下载,这意味着它可以同时建立多个连接来下载文件的不同部分,从而提高下载速度。我们在使用IDM的时候总是有很多疑问,今天我们学习IDM线…

python基础语法+爬虫+图像处理+NumpyPandas数据处理(12天速成,第7天上-爬虫Scrapy)

爬虫(Scrapy):写一段程序代码(网络访问),自动获取网页(网络)上的数据服务端语言:网络编程,都可以作为爬虫java c c python 等均可写爬虫程序js不是一个典型的服务端程序&…