【机器学习】数学知识:标准差,方差,协方差,平均数,中位数,众数

ops/2024/11/18 8:06:00/

标准差、方差和协方差是统计学中重要的概念,用于描述数据的分散程度和变量之间的关系。以下是它们的定义和公式:

1. 标准差 (Standard Deviation)

标准差是方差的平方根,表示数据的分散程度,以与数据相同的单位表示。

  • 公式
    • 对于样本: s = \sqrt{s^2}
    • 对于总体: \sigma = \sqrt{\sigma^2}

2. 方差 (Variance)

方差是衡量一组数据与其均值之间偏差的平方的平均值。它表示数据的分散程度。

  • 公式
    • 对于样本数据: s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
    • 对于总体数据: \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
    • 其中,x_i 是每个数据点,\bar{x} 是样本均值,\mu 是总体均值,n 是样本大小,N 是总体大小。

3. 协方差 (Covariance)

协方差是衡量两个变量之间关系的度量,表示它们如何一起变化。正协方差表示两个变量同向变化,负协方差表示它们反向变化。

  • 公式
    • 对于样本数据: \text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
    • 对于总体数据: \text{Cov}(X, Y) = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu_x)(y_i - \mu_y)
    • 其中,X 和 Y 是两个随机变量,x_i​ 和 y_i​ 是它们的观测值,\bar{x}\bar{y}​ 是它们的均值,\mu_x\mu_y​ 是总体均值。

这些概念在数据分析、概率论和统计学中非常重要,能够帮助理解数据的分布和变量之间的关系。


中位数、平均数和众数是描述数据集中趋势的三种常用统计量。各有其适用场景和统计意义,选择哪一个更具统计意义取决于数据的性质和分析目的。以下是它们的定义和计算方法及其适用情况:

4. 平均数 (Mean)

平均数是所有数据点的总和除以数据点的数量,通常被称为算术平均数。

  • 公式

        \text{Mean} = \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i 其中,x_i 是每个数据点,n 是数据点的总数量。

  • 优点
    • 平均数利用了所有数据点的信息,能反映整体水平。
    • 在正态分布的情况下,平均数是一个非常有效的集中趋势的指标。
  • 缺点
    • 对极端值(离群值)敏感。极端大或小的值会显著影响平均数,从而使其不能准确反映数据的中心趋势。
  • 适用情况
    • 当数据分布接近正态分布且没有显著的离群值时,平均数是一个很好的集中趋势度量。

5. 中位数 (Median)

中位数是将数据按升序排列后,位于中间位置的数值。如果数据点数量为奇数,中位数是中间的数;如果为偶数,中位数是中间两个数的平均值。

  • 计算方法
    • 将数据按升序排列。
    • 如果 n 是奇数: \text{Median} = x_{\left(\frac{n+1}{2}\right)}
    • 如果 n 是偶数: \text{Median} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)}}{2}
  • 优点
    • 中位数不受极端值的影响,因此在数据中存在离群值或数据分布不对称的情况下,它能更准确地反映数据的中心位置。
  • 缺点
    • 中位数不考虑所有数据点的信息,仅依赖于数据的顺序。
  • 适用情况
    • 当数据分布不对称或存在离群值时,中位数是更好的集中趋势度量。

6. 众数 (Mode)

众数是数据集中出现次数最多的数值。一个数据集可以有一个众数(单众数),多个众数(多众数),或没有众数(如果所有数出现的次数相同)。

  • 计算方法
    • 统计每个数值出现的频率,找出出现次数最多的数值。
  • 优点
    • 众数能显示最常见的数据值,适用于定性数据(分类数据)。
    • 在某些情况下,众数可以提供重要的信息,特别是在分析类别数据时。
  • 缺点
    • 数据集中可能没有众数(所有数值出现的次数相同),或有多个众数(多众数),这可能会使其统计意义不明确。
  • 适用情况
    • 当关注最常见的值或类别时,众数是一个重要的指标。

举例说明

假设有以下数据集:3, 7, 7, 2, 5, 9, 3

  • 平均数

    \text{Mean} = \frac{3 + 7 + 7 + 2 + 5 + 9 + 3}{7} = \frac{36}{7} \approx 5.14
  • 中位数: 排序后数据集为:2, 3, 3, 5, 7, 7, 9 由于有7个数(奇数),中位数为第4个数:

    \text{Median} = 5
  • 众数: 7出现的次数最多(2次),因此众数为:

    \text{Mode} = 7

这些统计量可以帮助我们了解数据的中心位置和分布特征。


http://www.ppmy.cn/ops/134656.html

相关文章

Affleck–Kennedy–Lieb–Tasaki (AKLT) 态

Affleck–Kennedy–Lieb–Tasaki (AKLT) state 是一种特殊的量子态,主要出现在具有自旋链结构的量子系统中,尤其是在一维自旋链(如自旋-1 系统)中。这个态由 I. Affleck, E.H. Kennedy, L. Lieb 和 H. Tasaki 在 1987 年提出&…

HarmonyOS本地存储-Preferences(用户首选项)的使用

一,用户首选项简述 ohos.data.preferences (用户首选项) 用户首选项为应用提供Key-Value键值型的数据处理能力,支持应用持久化轻量级数据,并对其修改和查询。 数据存储形式为键值对,键的类型为字符串型,值的存储数据…

tiktok 视频详情接口API服务

文章目录 请求示例响应示例 请求示例 def get_tk_detail():tk app 视频详情:return:aweme_id 7417899155944672530token xxxxxxxxurl f"http://xxxxxxxx:3333/tk/detail?token{token}&aweme_id{aweme_id}"res requests.get(url)print(res.json())响应示例 …

【论文阅读】(Security) Assertions by Large Language Models

论文笔记:(Security) Assertions by Large Language Models 来源:IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY I. 引言 计算机系统的安全性通常依赖于硬件的根信任。硬件漏洞可能对系统造成严重影响,因此需要支持安全验证的技术。断言验证是一种流行的验证…

台式电脑没有声音怎么办?台式电脑没有声音解决详解

台式电脑一般来说都是没有内置扬声器的,需要连接耳机或者是音响才可以播放音乐。那么如果遇到台式电脑没有声音的问题,我们也需要确认这些设备硬件有没问题,知道原因才可以进行处理。下面本文将为你介绍台式电脑没有声音的可能原因和解决方法…

代码随想录刷题学习日记

仅为个人记录复盘学习历程,解题思路来自代码随想录 代码随想录刷题笔记总结网址:代码随想录 90.子集II 给定一个可能包含重复元素的整数数组 nums,返回该数组所有可能的子集(幂集)。 说明:解集不能包含重复的子集。…

初识网络原理

1.网络互联 网络互联就是将多台计算机连接在一起,完成数据共享。 数据共享本质就是网络数据传输,即计算机之间通过网络来传输数据,也称为网络通信。 根据网络互联的规模不同,可以划分为局域网和广域网。 1.1 局域网 局域网&am…

uni-app快速入门(六)--rpx尺寸单位与Flex布局

一、uni-app尺寸单位 uni-app支持的通用尺寸单位包括px、rpx。为支持跨平台,在搭建空驾驶建议使用Flex布局。px指屏幕像素,rpx是响应式像素,是根据屏幕宽度自适应的动态单位。假如屏幕宽度为750像素,750rpx正好为屏幕宽度。uni-ap…