【描述性统计分析】

文章目录

一、描述性统计分析简介
- 1. 定义和目的
- 2. 与推断统计的对比
二、关键统计量
- 1. 集中趋势的度量
- - 1.1 均值（Mean）
  - 1.2 中位数（Median）
  - 1.3 众数（Mode）
- 2. 离散程度的度量
- - 2.1 方差（Variance）
  - 2.2 标准差（Standard Deviation）
  - 2.3 极差（Range）
- 3. 数据分布的形状
- - 3.1 偏度（Skewness）
  - 3.2 峰度（Kurtosis）

一、描述性统计分析简介

1. 定义和目的

描述性统计分析主要目的是利用总结性指标来描述、汇总和解释数据集。通过对数据的分布、集中趋势和离散程度进行统计分析，可以帮助人们更好地理解数据的特征和规律，从而为决策制定提供支持。

描述性统计分析的主要任务包括：

描述数据的集中趋势：通过计算均值、中位数和众数等指标来了解数据的平均水平或中心位置。
衡量数据的离散程度：通过计算方差、标准差和极差等指标来评估数据的波动程度或分散程度。
描述数据的分布形状：通过偏度和峰度等指标来描述数据分布的对称性和峰态。

2. 与推断统计的对比

描述性统计分析与推断统计是统计学中两个基本的分析方法，它们有着不同的目的、方法和应用场景。

描述性统计分析着重于对已有数据进行总结和描述，旨在通过统计指标揭示数据的特征和规律，而不需要对数据背后的总体进行推断或假设检验。
推断统计则涉及对数据的抽样和推断，其目的是通过对样本数据的分析来推断总体的特征，并对这些推断进行统计推断的可信度评估。

当我们只关注于对已有数据进行描述和总结时，描述性统计是首选的方法。而当我们需要对总体进行推断、假设检验或参数估计时，则需要借助推断统计的方法。

二、关键统计量

1. 集中趋势的度量

集中趋势是描述数据在某一位置上的分布情况的统计量，常用的集中趋势度量包括：

1.1 均值（Mean）

均值是指一组数据中所有数值的平均值，通过将所有数据值相加然后除以数据的数量得到。均值是最常用的集中趋势度量之一，能够反映数据的平均水平。

1.2 中位数（Median）

中位数是一组数据中处于中间位置的数值，即将数据按大小排序后位于中间位置的数值。中位数不受极端值的影响，因此在数据存在异常值或偏斜分布时常被使用。

1.3 众数（Mode）

众数是一组数据中出现频率最高的数值，即数据中出现次数最多的数值。众数对于描述数据的集中趋势具有一定的指示作用，尤其适用于离散型数据。

2. 离散程度的度量

离散程度度量用于衡量数据的波动程度或分散程度，常用的离散程度度量包括：

2.1 方差（Variance）

方差是一组数据与其均值之间差异的平方和的平均值，是衡量数据离散程度的常用指标。方差越大，表示数据的波动程度越大。

2.2 标准差（Standard Deviation）

标准差是方差的平方根，用于度量数据的离散程度。标准差的大小与数据的分布散度密切相关，是描述数据分布广度的重要指标。

2.3 极差（Range）

极差是一组数据中最大值与最小值之间的差值，简单直观地反映了数据的范围。虽然极差容易计算，但它只考虑了数据的最大和最小值，忽略了中间数据的分布情况。

3. 数据分布的形状

数据分布的形状描述了数据在统计学上的特征，包括对称性、偏斜程度和峰度等方面，常用的形状度量包括：

3.1 偏度（Skewness）

偏度用于描述数据分布的偏斜程度，即数据分布相对于均值的不对称程度。正偏度表示数据分布右偏（右边的尾部较长），负偏度表示数据分布左偏（左边的尾部较长）。

3.2 峰度（Kurtosis）

峰度用于描述数据分布的尖峭程度，即数据分布的尾部和中间部分的相对比较。正峰度表示数据分布的尾部较厚，峰值较高，负峰度表示数据分布的尾部较细，峰值较低。