【描述性统计分析】

server/2024/10/20 10:55:34/

文章目录

  • 一、描述性统计分析简介
    • 1. 定义和目的
    • 2. 与推断统计的对比
  • 二、关键统计量
    • 1. 集中趋势的度量
      • 1.1 均值(Mean)
      • 1.2 中位数(Median)
      • 1.3 众数(Mode)
    • 2. 离散程度的度量
      • 2.1 方差(Variance)
      • 2.2 标准差(Standard Deviation)
      • 2.3 极差(Range)
    • 3. 数据分布的形状
      • 3.1 偏度(Skewness)
      • 3.2 峰度(Kurtosis)

一、描述性统计分析简介

1. 定义和目的

描述性统计分析主要目的是利用总结性指标来描述、汇总和解释数据集。通过对数据的分布、集中趋势和离散程度进行统计分析,可以帮助人们更好地理解数据的特征和规律,从而为决策制定提供支持。

描述性统计分析的主要任务包括:

  • 描述数据的集中趋势:通过计算均值、中位数和众数等指标来了解数据的平均水平或中心位置。
  • 衡量数据的离散程度:通过计算方差、标准差和极差等指标来评估数据的波动程度或分散程度。
  • 描述数据的分布形状:通过偏度和峰度等指标来描述数据分布的对称性和峰态。

2. 与推断统计的对比

描述性统计分析与推断统计是统计学中两个基本的分析方法,它们有着不同的目的、方法和应用场景。

  • 描述性统计分析着重于对已有数据进行总结和描述,旨在通过统计指标揭示数据的特征和规律,而不需要对数据背后的总体进行推断或假设检验。

  • 推断统计则涉及对数据的抽样和推断,其目的是通过对样本数据的分析来推断总体的特征,并对这些推断进行统计推断的可信度评估。

当我们只关注于对已有数据进行描述和总结时,描述性统计是首选的方法。而当我们需要对总体进行推断、假设检验或参数估计时,则需要借助推断统计的方法。

二、关键统计量

1. 集中趋势的度量

集中趋势是描述数据在某一位置上的分布情况的统计量,常用的集中趋势度量包括:

1.1 均值(Mean)

均值是指一组数据中所有数值的平均值,通过将所有数据值相加然后除以数据的数量得到。均值是最常用的集中趋势度量之一,能够反映数据的平均水平。

1.2 中位数(Median)

中位数是一组数据中处于中间位置的数值,即将数据按大小排序后位于中间位置的数值。中位数不受极端值的影响,因此在数据存在异常值或偏斜分布时常被使用。

1.3 众数(Mode)

众数是一组数据中出现频率最高的数值,即数据中出现次数最多的数值。众数对于描述数据的集中趋势具有一定的指示作用,尤其适用于离散型数据。

2. 离散程度的度量

离散程度度量用于衡量数据的波动程度或分散程度,常用的离散程度度量包括:

2.1 方差(Variance)

方差是一组数据与其均值之间差异的平方和的平均值,是衡量数据离散程度的常用指标。方差越大,表示数据的波动程度越大。

2.2 标准差(Standard Deviation)

标准差是方差的平方根,用于度量数据的离散程度。标准差的大小与数据的分布散度密切相关,是描述数据分布广度的重要指标。

2.3 极差(Range)

极差是一组数据中最大值与最小值之间的差值,简单直观地反映了数据的范围。虽然极差容易计算,但它只考虑了数据的最大和最小值,忽略了中间数据的分布情况。

3. 数据分布的形状

数据分布的形状描述了数据在统计学上的特征,包括对称性、偏斜程度和峰度等方面,常用的形状度量包括:

3.1 偏度(Skewness)

偏度用于描述数据分布的偏斜程度,即数据分布相对于均值的不对称程度。正偏度表示数据分布右偏(右边的尾部较长),负偏度表示数据分布左偏(左边的尾部较长)。

3.2 峰度(Kurtosis)

峰度用于描述数据分布的尖峭程度,即数据分布的尾部和中间部分的相对比较。正峰度表示数据分布的尾部较厚,峰值较高,负峰度表示数据分布的尾部较细,峰值较低。


http://www.ppmy.cn/server/133317.html

相关文章

使用 JAX 进行 LLM 分布式监督微调

LLM distributed supervised fine-tuning with JAX — ROCm Blogs (amd.com) 24年1月25日,Douglas Jia 发布在AMD ROCm 博客上的文章。 在这篇文章中,我们回顾了使用 JAX 对基于双向编码器表示(BERT)的大型语言模型(LL…

cs61a涉及图像转换的代码注释(Lecture01)

这段代码的主要作用是计算图像的单应性矩阵,并使用该矩阵对图像进行透视变换。具体来说,它的功能包括: 1. **单应性矩阵估计**: - 使用给定的四对对应点(通常是从源图像和目标图像提取的特征点)&#x…

linux的随机化处理

Linux的随机化处理(或称为地址空间布局随机化,ASLR)是一种安全特性,旨在提高系统对抗攻击的能力,尤其是缓冲区溢出和代码注入攻击。随机化处理通过改变进程在内存中的布局来减少攻击者利用漏洞的可能性。 随机化处理的…

Qt优秀开源项目之二十四:EXCEL读写利器QXlsx

QXlsx是基于Qt5/Qt6的Excel文件(*.xlsx)的读写库。 github地址:https://github.com/QtExcel/QXlsx QXlsx既可以编译成库,也可以直接引用源码QXlsx-master\QXlsx\QXlsx.pri QXls提供了非常丰富的Examples,比如&#xff…

十四、行为型(观察者模式)

观察者模式(Observer Pattern) 概念 观察者模式(Observer Pattern)是一种行为型设计模式,它定义了对象间的一对多依赖关系,当被观察的对象(主题)状态发生改变时,所有依赖…

STM32—旋转编码器控制直流电机(标准库)

本文使用 KY-040旋转编码器 通过TC1508A电机驱动模块来控制直流电机正转和反转(Speed:0-100),代码部分基于标准库,使用定时器输出比较两个通道来控制PWM输出。 一、KY-040旋转编码器 下图为KY-040旋转编码器&#xf…

数据结构常考基础代码题-数组倒置

题目要求 将数组 (a1, a2, a3, ..., am, b1, b2, ..., bn) 转换成 (b1, b2, ..., bn, a1, a2, a3, ..., am)。 代码实现步骤 第一步:定义反转函数 根据题目中的“将数组中的元素顺序反转”,我们需要实现一个函数 Reverse,用于反转数组中从…

kafka脚本工具使用

如何定位kakfa消费端消息异常问题 查看主题查看消费者组查看消费者详情&#xff08;LAG: 消费者与最新消息的滞后程度(数字越大说明消费者处理消息的速度越慢)&#xff09; 进入docker容器&#xff0c;直接运行sh脚本即可 docker exec -it <containerName> /bin/bash或…