机器学习之方差与标准差

news/2024/12/19 14:12:43/

机器学习中,方差(Variance)和标准差(Standard Deviation)是用于描述数据分布特性的两个重要统计量,广泛应用于数据分析、模型评价和优化等多个方面。


1. 方差(Variance)

方差衡量的是数据点与均值之间的离散程度。具体来说,它是数据集中每个数据点与其均值的差值的平方的平均值。

公式:

  • N:数据点的总数量。
  • xi:第 i 个数据点。
  • μ:数据的均值。
  • \sigma^2:方差。

意义

  • 方差越大,说明数据的分布越分散。
  • 方差为零时,所有数据点都与均值相同。

应用

  • 特征选择:通过方差判断某些特征是否具有足够的信息量,若某特征方差接近零,可能表明该特征没有区分能力。
  • 正则化:模型过拟合时,可能导致训练数据预测误差的方差变大;正则化方法(如 L2 正则化)有助于控制方差。

2. 标准差(Standard Deviation)

标准差是方差的平方根,用于衡量数据的离散程度。它与方差的关系为:

意义

  • 标准差和方差本质相同,但标准差与原始数据的单位一致,便于直观理解。
  • 标准差越大,说明数据波动越大;标准差小,数据更加集中。

3. 方差与标准差的应用场景

(1)评估模型性能
  • Bias-Variance Tradeoff机器学习模型需要在偏差(Bias)方差(Variance)之间权衡。
    • 偏差:模型预测值与真实值的系统性误差,通常与欠拟合相关。
    • 方差:模型对训练数据的敏感程度,通常与过拟合相关。
(2)正态分布中的应用

在正态分布中,数据的标准差具有以下意义:

  • μ±σ:包含约 68% 的数据。
  • μ±2σ:包含约 95% 的数据。
  • μ±3σ:包含约 99.7% 的数据。
(3)特征缩放

标准差用于标准化(Standardization)数据:

这种处理使得数据具有零均值和单位标准差,帮助模型更快收敛。


4. 方差与标准差的区别

指标定义单位易用性
方差(\sigma^2)数据点与均值的离散程度的平方数据平方单位计算中常用
标准差(\sigma)数据离散程度的平方根,与数据单位一致与数据相同更直观、更易解释

5. 示例

假设一组数据:2,4,6,8,10

  1. 计算均值:

  2. 计算方差:

  3. 计算标准差:


6. 总结

  • 方差和标准差是评估数据分布特性的重要指标。
  • 它们在数据预处理、模型训练与评估中具有广泛的应用。
  • 在实际应用中,标准差因其单位一致性更直观,而方差在理论分析中更常使用。


http://www.ppmy.cn/news/1556396.html

相关文章

配置 wsl 2 网络代理时的认知误区

文章目录 方案细节1. 编辑配置文件2. 重启生效3. 问题排查 探究一个失败的方案误区一:windows 设置界面配置的全局代理并不能在终端中使用 curl 命令时生效误区二:WSL 2 中的流量实际绕过了 Windows 网络堆栈的传输层误区三:代理协议的层级决…

机器学习经典算法(scikit-learn)

安装库:pip install scikit-learn numpy 线性回归 (Linear Regression) import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.datasets impor…

《Amazon Bedrock vs ChatGPT:谁更胜一筹?》

在生成性AI技术的赛道上,Amazon Bedrock和ChatGPT无疑是两大热门名字。两者虽然都在人工智能的领域大展拳脚,但它们的设计理念、功能侧重点和应用场景却大不相同。那么,作为开发者或企业用户,选择这两者中的哪一个更为合适呢&…

OpenCV中的边缘检测和轮廓处理

在图像处理和计算机视觉任务中,边缘检测和轮廓处理是非常重要的步骤。OpenCV库提供了多种函数来实现这些功能,包括Sobel算子、Laplacian算子、Canny算子、findContours函数、drawContours函数以及透视变换函数等。本文将详细介绍这些函数的功能、参数、返…

MFC 自定义网格控件

一、什么是 Custom Control? Custom Control(自定义控件) 是 MFC(Microsoft Foundation Classes)框架中提供的一种控件类型,用于实现自定义的外观和功能。当标准控件(例如 CEdit、CButton、CLi…

ip地址暴露了怎么办?手机怎样改ip地址以保障安全

在数字化时代,IP地址作为我们连接互联网的“身份证”,其安全性至关重要。然而,有时我们的IP地址可能会因各种原因暴露,从而引发隐私泄露、网络攻击等风险。本文将为您详细解析IP地址暴露后的应对措施,特别是针对手机用…

python之求平面离散点集围成的面积

鞋带公式(Shoelace Formula)是一种计算多边形面积的数学公式,特别适用于已知顶点坐标的多边形。这个公式的名字来源于计算过程中的交叉相乘,类似于系鞋带时的交叉方式。 假设一个多边形有 个顶点,顶点的坐标依次为&am…

基于微信小程序的小区疫情防控ssm+论文源码调试讲解

第2章 程序开发技术 2.1 Mysql数据库 为了更容易理解Mysql数据库,接下来就对其具备的主要特征进行描述。 (1)首选Mysql数据库也是为了节省开发资金,因为网络上对Mysql的源码都已进行了公开展示,开发者根据程序开发需…