【分布族谱】正态分布和卡方分布的关系

news/2025/1/9 10:33:05/

文章目录

- 正态分布
- 卡方分布
- 卡方分布的极限

正态分布

正态分布，最早由棣莫弗在二项分布的渐近公式中得到，而真正奠定其地位的，应是高斯对测量误差的研究，故而又称Gauss分布。。测量是人类定量认识自然界的基础，测量误差的普遍性，使得正态分布拥有广泛的应用场景，或许正因如此，正太分布在分布族谱图中居于核心的位置。

在这里插入图片描述

正态分布 $N(\mu, \sigma)$ 受到期望 $\mu$ 和方差 $\sigma^2$ 的调控，其概率密度函数为

$\frac{1}{\sqrt{2\pi\sigma^2}}\exp[-\frac{(x-\mu)^2}{2\sigma^2}]$

当 $\mu=0$ 而 $\sigma=1$ 时，为标准正态分布 $N (0, 1)$ ，对应概率分布函数为 $\Phi(x)=\frac{1}{\sqrt{2\pi}}\exp[-\frac{x^2}{2}]$ 。

卡方分布

若 $k$ 个互相独立的随机变量 $\xi_1, \xi_2,\cdots,\xi_k$ ，均服从标准正态分布，则这k个随机变量的平方和构成一个新变量，新变量服从 $\chi^2$ 分布。其概率密度函数为

$\rho(x)=\frac{(1/2)^{k/2}}{\Gamma(k/2)}x^{k/2-1}e^{-x/2}$

下面就通过构造 $k$ 个按照正态分布的随机变量，然后将其平方和绘制出来。

import numpy as np
from scipy.stats import norm, chi2
import matplotlib.pyplot as pltk = 200
xs = [np.sum(norm.rvs(size=200)**2) for _ in range(10000)]
plt.hist(xs, density=True, bins=100, alpha=0.8)rv = chi2(k)
st, ed = rv.interval(0.995)
xs = np.linspace(st, ed, 200)
plt.plot(xs, rv.pdf(xs))
plt.show()

效果为

在这里插入图片描述

卡方分布的极限

卡方分布的PDF受到 $k$ 的调节，随着 $k$ 值不断增大，卡方分布越来越接近正态分布。而且卡方分布常用的统计特征也与 $k$ 密切相关，其期望为 $k$ ，方差为 $2 k$ ，中位数在 $k-\frac 3 2$ 附近。

下面分别更改 $k$ 值，来生成一组卡方分布的随机数，并与期望为 $k$ 、标准差为 $\sqrt{\frac k2}$ 的正态分布曲线作比较。

fig = plt.figure()
for i,k in enumerate([1,10,100,1000]):ax = fig.add_subplot(2,2,i+1)chis = chi2(k).rvs(size=10000)        # 卡方分布ax.hist(chis, density=True, bins=100, alpha=0.8)rv = norm(k, np.sqrt(2*k))st, ed = rv.interval(0.995)xs = np.linspace(st, ed, 200)ax.plot(xs, rv.pdf(xs))ax.set_title(f"k={k}")plt.show()