概率论基础知识点公式汇总

1 概率论的基本概念

1.1 随机事件

样本空间 $S$ ：将随机实验所有可能的记过组成的集合称为样本空间。
样本点：样本空间的每个结果称为样本点。
随机试验、随机事件 $E$ 、基本事件、必然事件、不可能事件、对立事件 $A\overline{A}$ 、古典概型。

1.2 频率与概率

频率：在相同的条件下进行 $n$ 次实验，事件 $A$ 发生的次数 $n_A$ 称为事件 $A$ 发生的频数。 $\frac{n_A}{n}$ 称为事件 $A$ 发生的频率。
概率： $E$ 是随机试验， $S$ 是样本空间。 $P (A)$ 称为事件 $A$ 的概率。
频率与概率的性质：
- 非负性： $P (A) > 0$
- 规范性： $P (S) = 1$
- 可列可加性： $A_iA_j=\emptyset,P(A_1\cup A_2\cup\dotsm\cup P_n)=P(A_1)+P(A_2)+\dotsm+P(A_n)$

1.3 条件概率

定义

设 $A, B$ 是两个事件，且 $P (A) > 0$ ,则称
$P(B|A)=\frac{P(AB)}{P(A)}$
也是一种链式法则。图解的方式理解。
$P(B|A)=\frac{P(AB|1)}{P(A|1)}$
在事件A发生的条件下，事件B发生的概率。

性质

非负性
规范性
可列可加性。

乘法定理

$P (A B) = P (A) P (B ∣ A)$
也是一种链式法则。图解的方式理解。
$P (A B ∣1) = P (A ∣1) P (B ∣ A)$

全概率公式

设试验 $E$ 样本空间为 $S$ ， $A$ 为试验的实践， $B_1,\dotsm,B_n$ 为S的一个划分，且 $P(B_i)>0$ ,则：
$P(A)=P(A|B_1)P(B_1)+\dotsm+P(A|B_n)P(B_n)\\ =\sum_i^nP(A|B_i)P(B_i)$

贝叶斯公式

设试验 $E$ 样本空间为 $S$ ， $A$ 为试验的实践， $B_1,\dotsm,B_n$ 为S的一个划分，且 $P(A)>0,P(B_i)>0$ ,则：
$P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^nP(A|B_j)P(B_j)}$

起到了交换条件与结果的作用。

1.4 独立性

定义

如果A，B是两个事件，满足：
$P (A B) = P (A) P (B)$
则称事件A，B相互独立。即事件A的发生对事件B没有影响。

定理一

若A，B相互独立，则 $P (B ∣ A) = P (B)$ .

定理二

若A，B相互独立，则下列事件也相互独立：
$A\overline{B},\overline{A}B,\overline{A}\overline{B}$

2 随机变量的分布

2.1 随机变量

定义

样本空间 $S={e}$ , $X = X (e)$ 是定义在样本空间上的实值单值函数，称 $X = X (e)$ 为随机变量。

2.2 离散型随机变量及其概率分布

定义

随机变量的取值是有限个或者无限多个。随机变量 $X$ 所有可能的取值为 $x_k$ ,随机变量的分布律记为：
$P(X=x_k)=P_k,k=1,2,3,\dotsm$

性质

$P_k\geq 0$
$\sum P_k=1$

分布律

表格形式给出每个随机变量的分布律。
代数公式表示随机变量的分布律。

01分布

$P(X=k)=p^k(1-p)^{1-k},k=0,1$

伯努利实验-二项分布 $X\sim b(n,p)$ ：

X表示n重伯努利实验事件A发生的次数。
$P(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1,\dotsm,n$

泊松分布 $X\sim \pi (\lambda)$ ：

$P(X=k)=\frac{\lambda ^ke^{-\lambda}}{k!},k=1,2,\dotsm,$

泊松定理（用泊松分布来逼近二项分布）：

$\lambda$ 是一个大于零的常数，n是任意正整数， $\lambda =nP_n$ ,则对于任意固定的非负整数k，有：
$\lim\limits_{n \rightarrow +\infty} \frac{1}{n(n+1)}$
$\lim\limits_{n \rightarrow \infty} C_n^kp_n^k(1-p_n)^{n-k}=\frac{\lambda ^ke^{-\lambda}}{k!}$

2.3 随机变量的分布函数

定义

X是一个随机变量，x是任意实数，以下称为X的分布函数：
$F(x)=P(X\leq x),-\infty \leq x \leq +\infty$

$F(x)=\int_{-\infty}^x f(t)dt$

2.4 连续性随机变量

定义

X为连续性随机变量，f(x)称为随机变量的概率密度。

性质

$f(x)\geq 0$
$\int_{-\infty}^{+\infty}f(x)dx=1$
$P(x_1<X<x_2>)=F(x_2)-F(x_1)=\int_{x_1}^{x_2}f(x)dx$
若f(x)在x处连续，则：
$F^\prime=F(x)$

均匀分布 $X\sim U(a,b)$ ：

$\begin{cases} \frac{1}{b-a} & a<x\leq b \\ 0 & else \end{cases}$

指数分布

$\begin{cases} \frac{1}{\theta}e^{-\frac{x}{\theta}}& x>0 \\ 0& else \end{cases}$
指数分布具有无记忆性。

正太分布或高斯分布 $X\sim N(\mu,\sigma^2)$ :

$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{{x-\mu}^2}{2 \sigma^2}},-\infty < x < + \infty$
相关性质：

关于 $x=\mu$ 对称
$x=\mu$ 时取到最大值。 $f(x)=\frac{1}{\sqrt{2\pi}}$
$Z=\frac{X-\mu}{\sigma}\sim N(0,1)$

3 多维随机变量

需要补充联合概率密度相关的内容，边缘概率密度

3.1 二维随机变量

二维随机变量定义

随机实验 $E$ ，样本空间 $S=\{e\}$ ， $X = X (e), Y = Y (e)$ 是定义在 $S$ 上的一个随机变量。由他们构成的向量 $(X, Y)$ 称为二维随机变量

分布函数

设 $(X, Y)$ 是二维随机变量，对于任意实数x，y，有
$F(x,y)=P((X\leq x)\cap(Y\leq y))\Leftrightarrow P(X\leq x,Y\leq y)$
称为二维随机变量(X,Y)的分布函数。或者随机变量X,Y的联合分布函数

分布函数的性质

$F (x, y)$ 对于任意一个随机变量是一个不减函数。
$0\leq F(x,y) \leq 1$
$F (x, y)$ 关于x右连续，关于y右连续
$x_2 > x_1,y_2>y_1$
$F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)\geq 0$

二维离散型随机变量联合分布律

$P(X=x_i,Y=y_i)=p_{ij}$
称为二维离散随机变量(X,Y)的分布律，或者随机变量X，Y的联合分布律。

二维离散型随机变量(X,Y)的分布函数

$F(x,y)=\sum_{x_i\leq x}\sum_{y_i\leq y}p_{ij}$

二维连续型随机变量联合概率密度

$f (x, y)$
称为二维连续型随机变量的概率密度或者随机变量X,Y的联合概率密度。

二维连续型随机变量(X,Y)的分布函数

$F(x,y)=\int_{-\infty}^y\int_{-\infty}^xf(u,v)dudv$

概率密度f(x,y)性质

$f(x,y)\geq 0$
$F(x,y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(u,v)dudv=1$
G是平面上的区域则：
$P((X,Y)\in G)=\iint_Gf(x,y)dxdy$
f(x,y)在点(x,y)处连续，
$\frac{\partial^2 F(x,y)}{\partial x \partial y}=f(x,y)$

n维随机变量的分布函数也具有以上性质。

3.2 边缘分布

边缘分布定义

二维随机变量有各自的分布函数 $F_x(x),Fy(y)$ ，称为二维随机变量的边缘分布。
$F_x(x)=P(X\leq x)=P(X\leq x,Y < \infty)=F(x,\infty)$

边缘分布律

离散型随机变量(X,Y)的边缘分布律
$p_{i\cdot}=\sum_{j=1}^{\infty}p_{ij} \\ p_{\cdot j}=\sum_{i=1}^{\infty}p_{ij}$
连续型随机变量(X,Y)的边缘密度函数
$f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy \\ f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx$

3.3 条件分布

条件分布律定义

二维随机变量(X,Y)，X在 $Y_j$ 条件下的条件分布律为：
$P(X=x_i|Y=y_j)=\frac{p_{ij}}{p_{\cdot j}}$

条件概率密度定义

二维随机变量(X,Y)，X在Y=y条件下的条件概率密度：
$f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}$

3.4 相互独立的随机变量

定义

$P(X\leq x,Y\leq y)=P(X\leq x)P(Y\leq y) \\ f(x,y)=f_X(x)f_Y(y)\\ F(x,y)=F_X(x)F_Y(y) \\$
满足上述条件的随机变量X与Y是相互独立的。

3.5 两个随机变量的函数的分布

Z=X+Y的概率分布

$f_{X+Y}(z)=\int_{-\infty}^{+\infty}f(z-y,y)dy \\ f_{X+Y}(z)=\int_{-\infty}^{+\infty}f(x,y-x)dx$

这个地方有点像二维积分通过关系式进行了简化（我可能又要重新复习高等数学的微积分知识了。

卷积公式

如果X，Y两个随机变量相互独立，则能得到以下公式
$f_{X+Y}(z)=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy \\ f_{X+Y}(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx$
这里的 $f_X,f_Y$ 称为卷积公式。

很神奇，概率论矩阵啥的，最后还要用到基础的微积分数学工具。

Z=Y/X与Z=XY的概率分布

$f_{X/Y}(z)=\int_{-\infty}^{+\infty}f(x,xz)dx \\ f_{XY}(z)=\int_{-\infty}^{+\infty}f(x,z/x)dx$
若果X，Y两个随机变量相互独立，则能得到以下公式
$f_{X/Y}(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(xz)dx \\ f_{XY}(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z/x)dx$

$M=max\{X,Y\},N=min\{X,Y\}$ 的概率分布

$P_{max}(z)=P({X\leq z},Y\leq z)\\ F_{max}(z)=F_X(z)F_Y(z) \\ F_{min}(z)=1-(1-F_X(z))(1-F_Y(z))$

可以将以上讨论扩展到n个随机变量

4. 随机变量的数字特征

这里并非统计量，而是估计量。即通过概率计算得到的总体的估计值，是数据特征。

4.1 数学期望或均值

主要包括数学期望的定义式，基本四则运算，与常见概率分布的数学期望的复杂运算。

定义

离散型 $E(X)=\sum_k^\infty x_kp_k$
连续型 $E(x)=\int_{-\infty}^{\infty}xf(x)dx$

常见数学期望

$X\sim \pi(\lambda);E(x)=\lambda \\ X\sim U(a,b);E(x)=\frac{a+b}{2}$

数学期望的性质

常数期望不变： $E (C) = C$
数称特性： $E (a X) = a E (X)$
高维线性可加性XY不必独立： $E (X + Y) = E (X) + E (Y)$
高维乘积X与Y相互独立： $E (X Y) = E (X) E (Y)$

数学期望定理（运算公式）：

$Y=g(X),P(X=x_k)=p_k\\ E(Y)=E(g(X))=\sum_{k=1}^{\infty}g(x_k)p_k \\ E(Y)=E(g(x))=\int_{-\infty}^{\infty}g(x)f(x)dx$
利用定理可以直接计算变换后的函数密度。

4.2 方差

主要包括方差的定义式，基本四则运算，与常见概率分布的方差的复杂运算。

定义

定义式： $D(X)=Var(X)=E((X-E(X))^2)$
离散型： $D(X)=\sum_1^\infty (x_k-E(X))^2p_k$
连续型： $D(X)=\int_{-\infty}^{+\infty}(x-E(x))^2f(x)dx$
简化式： $D(X)=E(X^2)-(E(X))^2$

常见的方差

$X\sim B(0,1),D(X)=p(1-p)$
$X\sim N(\mu,\sigma^2),D(X)=\sigma^2$
$X\sim \pi(\lambda)，D(X)=\lambda$
$X\sim U(a,b),D(X)=\frac{(b-a)^2}{12}$

方差的性质

常数不变性：C是常数， $D (C) = 0$
数乘特性： $D(CX)=C^2D(X)$
高维独立可加性：若X，Y相互独立，则 $D (X + Y) = D (X) + D (Y)$
$\Leftrightarrow D(X)=0$

4.3 协方差与相关系数

主要包括协方差的定义式，基本四则运算。

定义

$\\ =E(XY)-E(X)E(Y)\\ 样本=\sum(x_i-\overline{x})(y_i-\overline{y})\\ \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$
X,Y 相互独立时， $C o v (X, Y) = 0$

协方差含义

当求高数随机变量的方差时，如果随机变量不独立，会产生交叉项。高维乘积的方差，存在交叉项。
$D(X+Y)=E((X-E(X))^2)+E((Y-E(Y))^2)+2E((X-E(X))(Y-E(Y))) \\ D(X+Y)=D(X)+D(Y)+2Cov(X,Y) \\$
相关系数是协方差的标准化。用来表示X与Y的相关性。

协方差性质

当X与Y独立时： $C o v (X, Y) = 0$
C为常数: $C o v (X, C) = 0$
完全相关: $C o v (X, X) = D (X)$
交换律: $C o v (X, Y) = C o v (Y, X)$
线性可加性: $C o v (a X + c, bY + d) = ab C o v (X, Y)$
分配率: $Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$
当X与Y不独立时： $D (X + Y) = D (X) + D (Y) + C o v (X, Y)$

4.4 矩、协方差矩阵

定义

k阶原点矩： $E(X^k)$ .
k阶中心矩： $E((X-E(X))^k)$

切比雪夫不等式

随机变量X具有数学期望 $E(X)=\mu,D(X)=\sigma^2$ 。对于任意正数 $\epsilon$ ，不等式成立：
$P(|X-\mu|\geq\epsilon)\leq\frac{\sigma^2}{\epsilon^2} \\ 或 P(|X-\mu|< \epsilon)\geq 1-\frac{\sigma^2}{\epsilon^2}$

相关性质以后再补充。

5. 大数定律和中心极限定理

5.1 大数定律

弱大数定理（辛钦大数定理）

$X_1,X_2,\dotsm$ 独立同分布， $E(X_k)=\mu$ ，对于任意的 $\epsilon \geq 0$ ，有：（可以证明）
$\lim\limits_{n\rightarrow 0}P(|\frac{1}{n}\sum_{k=1}^nx_k-\mu|<\epsilon)=1$
$\overline{X}=\frac{1}{n} \sum_{k=1}^nx_k$ 算术平拘束依概率收敛于 $\mu$ ,即 $\overline{X}\xrightarrow{P}\mu$

伯努利大数定理

设 $f_A$ 是n次实验中事件A发生的次数，P是每次实验中A发生的概率。则有(可以理解)
$\lim\limits_{n\rightarrow\infty}P(|\frac{f_A}{n}-p|<\epsilon)=1 \\ \lim\limits_{n\rightarrow\infty}P(|\frac{f_A}{n}-p|\geq\epsilon)=0$

5.2 中心极限定理

定理一（独立同分布的中心极限定理）

$X_1,X_2,\dotsm$ 独立同分布， $E(X_k)=\mu,D(X_k)=\sigma^2$ ,则随机化变量之和的标准化变量为：
$Y_n=\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}$
它的概率分布为：
$\lim\limits_{n\rightarrow\infty}F_n(x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt$
含义说明： $E(X_k)=\mu,D(X_k)=\sigma^2$ 的独立同分布的随机变量的和的标准化变量 $Y_n$ ，当n足够大时，近似服从标准化正太分布。

定理二（李雅普诺夫定理）

$X_1,X_2,\dotsm$ 相互独立，但并不是同分布。
$E(X_k)=\mu_k,D(X_k)=\sigma_k^2$ ,则随机化变量之和的标准化变量为：
$Z_n=\frac{\sum_{k=1}^nX_k-\sum_{k=1}^n\mu_k}{\sum_{k=1}^n\sigma_k^2}$
它的概率分布为：
$\lim\limits_{n\rightarrow\infty}F_n(x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt$
含义说明，无论各个随机变量服从什么样的分布，当n足够大时，他们和的标准化变量 $Z_n$ 都服从正太分布。

定理三（迪莫夫拉普拉斯定理）

设随机变量 $\eta_n$ 服从(n,p)二项分布。对于任意的x有：

$\lim\limits_{n\rightarrow\infty}P(\frac{\eta_n-np}{\sqrt{np(1-p)}}\leq x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt$
含义说明：正态分布是二项分布的极限分布。