机器学习 00 归一化/标准化

news/2024/11/28 1:37:21/

目录

一、归一化/标准化

1.1 为什么我们要进行归一化/标准化?

二、归一化

2.1 定义

2.2 公式

 2.3 归一化总结

三、标准化

3.1 定义

3.2 公式

3.3 标准化总结


一、归一化/标准化

1.1 为什么我们要进行归一化/标准化?
 

特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征。


举例:约会对象数据
相亲约会对象数据,这个样本时男士的数据,三个特征(玩游戏所消耗时间的百分比、每年获得的飞行常客里程数、每周消费的冰淇淋公升数)。然后有一个所属类别,被女士评价的三个类别(不喜欢didnt、魅力一般small、极具魅力large),也许也就是说飞行里程数对于计算结果或者说相亲结果影响较大,但是统计的人觉得这三个特征同等重要。

二、归一化

2.1 定义

通过对原始数据进行变换把数据映射到(默认为[0,1])之间。

2.2 公式


那么怎么理解这个过程呢?我们通过一个例子

1、作用于每一列,max为一列的最大值,min为一列的最小值,那么X”为最终结果。

2、mx,mi分别为指定区间值,如制定区间[mx,mi]。 默认mx为1,mi为0。 

 

 2.3 归一化总结

注意最大值最小值是变化的,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差;

只适合传统精确小数据场景;

三、标准化

3.1 定义

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内。

3.2 公式

 作用于每一列,mean为平均值,o为标准差,x为当前值 

对于归一化来说:如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变;

对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。

3.3 标准化总结

在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。


http://www.ppmy.cn/news/41824.html

相关文章

【c/c++编译工具】——Cmake的学习

简介 目录 简介 1. Cmake的基本语法 2. 常用指令 3. CMake常用的变量 4. CMake编译工程 5. 构建方式 6. 实战---CMake代码实战 CMake是一个跨平台的安装编译工具,可以用简单的语句来描述所有平台的安装(编译过程)。CMake可以说已经成为大部分C开源项目标配…

害怕冲突吗?冲突也有正面的意义?

目录 一、害怕冲突的表现 二、害怕冲突的形成原因 三、冲突的意义 四、怎么办? 一、害怕冲突的表现 明明自己不愿意做的事情,也委曲求全答应下来; 害怕被拒绝,笑、讽刺而不去做自己想做的事情; 自卑、敏感、处处…

使用LeafLet叠加Geoserver wms图层到已有底图的方法

背景 随着现代城市交通建设的飞速发展,各个城市的地铁路线和地铁站点也是越来越多。地铁极大的方便了广大人民的交通出行。作为Giser,经常会遇到需要将一份shp数据在地图上展示,甚至需要在网页端进行浏览的需要。把shp这种空间矢量数据进行we…

Ubuntu16.04更换eigen3版本

Ubuntu16.04更换eigen3版本卸载eigen3查看系统是否安装eigen3,并找到其位置删除安装eigen3提前下载好指定版本的eigen3解压、编译、安装拷贝查看eigen3版本卸载eigen3 查看系统是否安装eigen3,并找到其位置 sudo updatedb locate eigen3Linux updatedb…

【华为OD机试真题】区块链文件转储系统(javapython)100%通过率

区块链文件转储系统 知识点栈链表单调栈Q滑窗 时间限制:2s空间限制:256MB限定语言:不限 题目描述: 区块链底层存储是一个链式文件系统,由顺序的N个文件组成,每个文件的大小不一,依次为F1,F2…Fn。随着时间的推移,所占存储会越来越大。 云平台考虑将区块链按文件转储…

无公网IP,在外公网远程访问RabbitMQ服务「内网穿透」

文章目录前言1.安装erlang 语言2.安装rabbitMQ3. 内网穿透3.1 安装cpolar内网穿透(支持一键自动安装脚本)3.2 创建HTTP隧道4. 公网远程连接5.固定公网TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址前言 RabbitMQ是一个在 AMQP(高级消息队列协议)基础上…

C++代理模式探索:在复杂系统中发挥控制与保护的作用

C代理模式探索:在复杂系统中发挥控制与保护的作用引言代理模式基本概念静态代理实现动态代理实现代理模式的应用场景代理模式的优缺点代理模式与其他设计模式的关联代理模式在C/C中的实现懒加载代理模式 - 用于延迟加载大型对象远程代理模式 - 用于访问远程对象的接…

美国全力打击币圈 “一套花式组合拳”,打得从业者透不过气

银行危机“平息”过后,美国监管机构对币圈接连出手,一套花式组合拳打得从业者透不过气,也使得加密行业在政府的拳头之下风声鹤唳。 首先,切断加密货币与传统金融机构的联系。美国金融体系陷入混乱之际,一系列历史性的银…