标准化和归一化的定义、公式、作用、示例、区别

news/2024/9/29 15:39:47/

标准化(Standardization) 和 **归一化(Normalization)**是数据预处理中常用的两种技术,目的是调整数据的尺度,使得不同特征的数据可以在同一水平上进行比较或处理。这两种方法在形式和用途上有所不同,下面分别进行介绍并举例说明。


1. 标准化(Standardization)

定义:

标准化是通过对原始数据进行变换,将其转换为均值为0、标准差为1的分布。这样处理后的数据符合标准正态分布,即所谓的“零均值、单位方差”分布。

公式:

对于数据集中的每个数据点 x x x,标准化后的值 z z z 计算如下:
z = x − μ σ z = \frac{x - \mu}{\sigma} z=σxμ

其中:

  • μ \mu μ 是数据的均值(平均值)。
  • σ \sigma σ 是数据的标准差。

作用:

  • 消除量纲差异: 将不同尺度的特征转换到相同的尺度,便于比较。
  • 提高算法性能: 对于假设数据服从正态分布的算法(如线性回归、逻辑回归、支持向量机等),标准化可以提高模型的收敛速度和准确性。

举例说明:

假设有一个数据集:

  • 原始数据 x = [ 50 , 60 , 70 , 80 , 90 ] x = [50, 60, 70, 80, 90] x=[50,60,70,80,90]

计算均值和标准差:

  • 均值 μ \mu μ
    μ = 50 + 60 + 70 + 80 + 90 5 = 70 \mu = \frac{50 + 60 + 70 + 80 + 90}{5} = 70 μ=550+60+70+80+90=70

  • 标准差 σ \sigma σ
    σ = ( 50 − 70 ) 2 + ( 60 − 70 ) 2 + ( 70 − 70 ) 2 + ( 80 − 70 ) 2 + ( 90 − 70 ) 2 5 ≈ 14.14 \sigma = \sqrt{\frac{(50 - 70)^2 + (60 - 70)^2 + (70 - 70)^2 + (80 - 70)^2 + (90 - 70)^2}{5}} \approx 14.14 σ=5(5070)2+(6070)2+(7070)2+(8070)2+(9070)2 14.14

对数据进行标准化:
z 1 = 50 − 70 14.14 ≈ − 1.41 z 2 = 60 − 70 14.14 ≈ − 0.71 z 3 = 70 − 70 14.14 = 0 z 4 = 80 − 70 14.14 ≈ 0.71 z 5 = 90 − 70 14.14 ≈ 1.41 \begin{align*} z_1 & = \frac{50 - 70}{14.14} \approx -1.41 \\ z_2 & = \frac{60 - 70}{14.14} \approx -0.71 \\ z_3 & = \frac{70 - 70}{14.14} = 0 \\ z_4 & = \frac{80 - 70}{14.14} \approx 0.71 \\ z_5 & = \frac{90 - 70}{14.14} \approx 1.41 \end{align*} z1z2z3z4z5=14.1450701.41=14.1460700.71=14.147070=0=14.1480700.71=14.1490701.41

标准化后的数据:

  • z = [ − 1.41 , − 0.71 , 0 , 0.71 , 1.41 ] z = [-1.41, -0.71, 0, 0.71, 1.41] z=[1.41,0.71,0,0.71,1.41]

此时,标准化数据的均值为0,标准差为1。


2. 归一化(Normalization)

定义:

归一化是通过对原始数据进行缩放,将其值转换到特定的范围,通常是[0, 1]或[-1, 1]区间。这有助于消除不同特征之间的量纲差异,使得各特征对模型的贡献均等。

公式:

对于每个数据点 x x x,归一化后的值 x ′ x' x 计算如下(以 [0, 1] 区间为例):
x ′ = x − x min ⁡ x max ⁡ − x min ⁡ x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}} x=xmaxxminxxmin

其中:

  • x min ⁡ x_{\min} xmin 是数据集中的最小值。
  • x max ⁡ x_{\max} xmax 是数据集中的最大值。

作用:

  • 统一特征尺度: 将不同范围的数据缩放到相同的区间,避免某些特征因为数值较大而主导模型。
  • 加快算法收敛: 对于基于距离计算的算法(如K近邻、神经网络等),归一化可以提高模型的训练速度和性能。

举例说明:

使用同样的数据集:

  • 原始数据 x = [ 50 , 60 , 70 , 80 , 90 ] x = [50, 60, 70, 80, 90] x=[50,60,70,80,90]

计算最小值和最大值:

  • 最小值 x min ⁡ = 50 x_{\min} = 50 xmin=50
  • 最大值 x max ⁡ = 90 x_{\max} = 90 xmax=90

对数据进行归一化:
x 1 ′ = 50 − 50 90 − 50 = 0 x 2 ′ = 60 − 50 90 − 50 = 10 40 = 0.25 x 3 ′ = 70 − 50 90 − 50 = 20 40 = 0.5 x 4 ′ = 80 − 50 90 − 50 = 30 40 = 0.75 x 5 ′ = 90 − 50 90 − 50 = 1 \begin{align*} x_1' & = \frac{50 - 50}{90 - 50} = 0 \\ x_2' & = \frac{60 - 50}{90 - 50} = \frac{10}{40} = 0.25 \\ x_3' & = \frac{70 - 50}{90 - 50} = \frac{20}{40} = 0.5 \\ x_4' & = \frac{80 - 50}{90 - 50} = \frac{30}{40} = 0.75 \\ x_5' & = \frac{90 - 50}{90 - 50} = 1 \end{align*} x1x2x3x4x5=90505050=0=90506050=4010=0.25=90507050=4020=0.5=90508050=4030=0.75=90509050=1

归一化后的数据:

  • x ′ = [ 0 , 0.25 , 0.5 , 0.75 , 1 ] x' = [0, 0.25, 0.5, 0.75, 1] x=[0,0.25,0.5,0.75,1]

此时,所有数据均位于 [0, 1] 区间内。


3. 标准化与归一化的区别

  • 目的不同:

    • 标准化旨在使数据符合标准正态分布(均值为0,标准差为1),适用于对数据分布有假设的算法。
    • 归一化旨在将数据缩放到固定区间,适用于基于距离或相似度的算法。
  • 适用场景不同:

    • 标准化适用于:线性回归、逻辑回归、支持向量机、主成分分析等。
    • 归一化适用于:神经网络、K近邻算法、K均值聚类等。
  • 对异常值的影响:

    • 标准化:受异常值影响较小,因为均值和标准差对极端值有一定的缓冲。
    • 归一化:对异常值敏感,极端值会压缩其他数据的取值范围。

4. 实际应用中的选择

  • 当算法对数据分布有要求,且对异常值不敏感时,选择标准化。
  • 当需要将数据缩放到固定区间,且算法对数据的相对大小敏感时,选择归一化。

总结:

  • 标准化(Standardization):通过减去均值并除以标准差,将数据转换为标准正态分布。适用于对数据分布有假设的模型,提高模型的稳定性和收敛速度。

  • 归一化(Normalization):通过缩放,将数据映射到固定的区间内,通常是 [0, 1]。适用于基于距离度量的模型,确保特征对模型的影响均等。

希望以上解释和举例能帮助你清楚地理解标准化和归一化的概念、区别以及应用场景。


http://www.ppmy.cn/news/1531981.html

相关文章

海滨体育馆管理系统:SpringBoot实现技巧与案例

2系统关键技术 2.1JAVA技术 Java是一种非常常用的编程语言,在全球编程语言排行版上总是前三。在方兴未艾的计算机技术发展历程中,Java的身影无处不在,并且拥有旺盛的生命力。Java的跨平台能力十分强大,只需一次编译,任…

mac怎么设置ip地址映射

最近开发的项目分为了两种版本,一个自己用的,一个是卖出去的。 卖出的域名是和自己的不一样的,系统中有一些功能是只有卖出去的版本有的,但我们开发完之后还得测试,那就需要给自己的电脑配置一个IP地址映射了&#xf…

【Sentinel-2简介】

Sentinel-2简介 Sentinel-2是欧洲空间局(European Space Agency, ESA)全球环境和安全监视(即哥白尼计划)系列卫星的重要组成部分,由Sentinel-2A和Sentinel-2B两颗卫星组成。以下是关于Sentinel-2的详细介绍&#xff1…

留学生如何适应海外生活以及应对文化差异

对于即将出国学习和生活的留学生来说,文化差异和生活方式的变化常常是一个紧迫的问题。那么,如何应对这些文化差异,以及如何适应新的学习环境和社交生活呢?本文将分享一些具体可行的建议和方法,助您顺利跨越这道难关&a…

ENV | 5步安装 npm node(homebrew 简洁版)

1. 操作步骤 1.1 安装 homebrew /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"1.2 安装 node # 安装最新版 brew install node # 安装指定版本,如18 brew install node181.3 安装 nvm&#xff08…

Craft:年度 Mac 应用,卡片式笔记新星

今年的年度 Mac 应用大奖颁给了Craft,这是一款集笔记、文档和个人管理于一体的独特工具。Craft 最大的亮点在于其卡片式的交互设计,这种设计让信息组织变得更加直观且高效。 尽管它仅上线了一年时间,但已经展现出了不输于许多老牌笔记应用的…

【Power Query】三大容器及元素提取

三大容器 Table; List; Record 表 (Table): Table一般是从外部导入的 如果非要手动生成,可以这样: #table({"学号","姓名","平时分"},{{1,"Alice",99},{2,"Beige&quo…

linux-windows挂载NFS

挂载NFS linux安装Windows安装连接完成设置开机自启动linux开机自启动windows开机自启动 卸载NFSlinux 使用NFS共享将Linux系统上的磁盘映射到Windows电脑上作为本地磁盘。 linux安装 1.安装NFS服务: sudo apt-get install nfs-kernel-server2.编辑/etc/exports文…