概率论公式整理

1 概率

古典概型和几何概型
- 古典概型（有限等可能）
- 几何概型（无限等可能）
条件概率

$\frac{P(AB)}{P(B)}$

全概率公式

$\sum \limits_{i = 1}^n P(A_i)P(B|A_i)$

贝叶斯公式：根据先验概率计算后验概率

$\frac{P(H)P(E|H)}{P(E)} \\ P(B_i | A) = \frac{P(B_i)P(A|B_i)}{\sum_i P(B_i) P(A|B_i)} \\ P(H_i | E_1E_2 \cdots E_m) = \frac{P(E_1|H_i)P(E_2|H_i) \cdots P(E_m|H_i)P(H_i)}{\sum \limits_{j = 1}^n P(E_1|H_j)P(E_2|H_j) \cdots P(E_m|H_j)P(H_j)}$

先验概率和后验概率
- 先验概率：事情未发生，根据以往数据分析得到的概率
- 后验概率：事情已发生，这件事情发生的原因是由某个因素引起的概率。 $P(B_i|A)$ 中 $B_i$ 为某个因素， $A$ 为已经发生的结果

2 离散随机变量及分布

$X$ 的概率分布函数：

两点分布（01分布） $\thicksim B(1, p)$

$\\ P(X = 1) = p \\ p \in (0,1)$

二项分布（伯努利分布） $\thicksim B(n, p)$

$C_n^k p^k (1 - p)^{n - k} \hspace{1em} p \in (0,1), k = 0,1,2,\cdots, n$

泊松分布 $\thicksim P(\lambda)$

$\frac{\lambda ^ k e ^{- \lambda}}{k!} \hspace{1em} \lambda \gt 0, k = 0,1,2,\cdots$

几何分布 $\thicksim G(p)$

$\hspace{1em} p \in (0, 1), k = 1, 2, \cdots$

超几何分布 $\thicksim h(n, N, M)$

$N$ 个产品， $M$ 个次品，从中无放回随机抽取 $n$ 个，不合格数 $X$ 服从超几何分布
$\frac{C_{N - M} ^ {n - k}C_M^k}{C_N ^ n}$

联合分布函数：二维随机变量 $(X, Y)$ 的分布函数。

边缘概率函数：从联合分布函数得到只关于一个变量的概率分布，而不再考虑另一变量的影响，相当于降维操作

条件概率函数：在一个已知变量发生的情况下，考虑另一个变量的概率分布函数

3 连续随机变量及分布

概率密度函数：连续型随机变量 $X$ 的分布函数为 $F (x)$ ，若存在一个非负的函数 $f (x)$ ，使得对任意 $x$ 有：
$\int _{-\infin} ^x f(t) dt$
则称 $f (x)$ 为 $X$ 的概率密度函数

联合概率密度：二维随机变量的概率密度函数

边缘分布函数：二维随机变量关于某一维变量的概率密度分布，化为关于这一维变量的积分函数

均匀分布 $\thicksim U(a, b)$

$\begin{cases} \frac{1}{b - a}, & a \le x \le b \\ 0, &其他 \end{cases}$

指数分布 $\thicksim E(\lambda)$

$\begin{cases} \lambda e ^{-\lambda x}, & x \gt 0 \\ 0, &其他 \end{cases}$

正态分布（高斯分布） $\thicksim N(\mu, \sigma ^ 2)$

$\frac{1}{\sqrt{2 \pi} \sigma} \huge{e} ^ {\large{- \frac{(x - \mu) ^ 2}{2 \sigma ^ 2}}}$

标准正态分布 $\thicksim N(0, 1)$

4 随机变量数字特征

4.1 数学期望

离散分布的数学期望

两点分布 $E = p$
二项分布 $E = n p$
泊松分布 $\lambda$
几何分布 $\frac{1}{p}$

连续分布的数学期望

公式为：
$\int _{-\infin}^{+ \infin} xf(x) dx$

均匀分布 $\frac{a + b}{2}$
指数分布 $\frac{1}{\lambda}$
正态分布 $\mu$

4.2 方差

$D(X) = E[(X - E(X))^2] = E(X^2) - E^2(X)$

4.3 协方差

$C o v (X, Y) = E [(X - E [X]) (Y - E [Y])] = E [X Y] - E [X] E [Y]$

从数值来看，协方差的数值越大，两个变量同向程度也就越大。反之亦然。

两个集合X和Y的协方差计算公式为：
$\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$

4.4 相关系数

$\rho_{_{XY}} = \frac{Cov(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}$

相关系数等于0，不相关，相互独立

独立、互斥、相关（线性相关）

5 大数定理和中心极限定理

大数定理

样本数量很大的时候，样本均值和数学期望充分接近，也就是说当我们大量重复某一相同的实验的时候，其最后的实验结果可能会稳定在某一数值附近。

伯努利大数定律： $f_n(A)$ 为事件 $A$ 出现的频率， $p$ 是事件A每次实验中发生的概率
$\mathop{lim} \limits _{n \rightarrow \infin} P \{ |f_n(A) - p| \lt \varepsilon \} = 1$
还有切比雪夫大数定律，马尔科夫大数定律

中心极限定理

大量（ $\to \infin$ ）、独立、同分布的随机变量之和，近似服从于一维正态分布。

随机变量之和的标准化变量为
$\eta = \frac{\sum \limits _{i = 1} ^{n} x_i - n \mu}{\sqrt{n} \sigma}$

均值为 $\mu$ ，方差为 $\sigma^2$ 的独立同分布的随机变量序列 $x_1, x_2, \cdots, x_n$ ，只要 $n$ 足够大，就有
$\frac{\sum \limits _{i = 1} ^{n} x_i - n \mu}{\sqrt{n} \sigma} \stackrel{近似}{\thicksim} N(0, 1)$

6 参数估计

极大似然估计要求所有采样都是独立同分布的

就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！

求最大似然估计量 $\hat \theta$ 步骤：

写出似然函数，似然函数越大越好

$\prod \limits _{i = 1} ^n f(x_i)$

对似然函数取对数，整理
求导数，让导数等于0
解似然方程