1 概率论的基本概念
1.1 随机事件
- 样本空间 S S S:将随机实验所有可能的记过组成的集合称为样本空间。
- 样本点:样本空间的每个结果称为样本点。
- 随机试验、随机事件 E E E、基本事件、必然事件、不可能事件、对立事件 A A ‾ A\overline{A} AA、古典概型。
1.2 频率与概率
- 频率:在相同的条件下进行 n n n次实验,事件 A A A发生的次数 n A n_A nA称为事件 A A A发生的频数。 n A n \frac{n_A}{n} nnA称为事件 A A A发生的频率。
- 概率: E E E是随机试验, S S S是样本空间。 P ( A ) P(A) P(A)称为事件 A A A的概率。
- 频率与概率的性质:
- 非负性: P ( A ) > 0 P(A)>0 P(A)>0
- 规范性: P ( S ) = 1 P(S)=1 P(S)=1
- 可列可加性: A i A j = ∅ , P ( A 1 ∪ A 2 ∪ ⋯ ∪ P n ) = P ( A 1 ) + P ( A 2 ) + ⋯ + P ( A n ) A_iA_j=\emptyset,P(A_1\cup A_2\cup\dotsm\cup P_n)=P(A_1)+P(A_2)+\dotsm+P(A_n) AiAj=∅,P(A1∪A2∪⋯∪Pn)=P(A1)+P(A2)+⋯+P(An)
1.3 条件概率
定义
设 A , B A,B A,B是两个事件,且 P ( A ) > 0 P(A)>0 P(A)>0,则称
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)
也是一种链式法则。图解的方式理解。
P ( B ∣ A ) = P ( A B ∣ 1 ) P ( A ∣ 1 ) P(B|A)=\frac{P(AB|1)}{P(A|1)} P(B∣A)=P(A∣1)P(AB∣1)
在事件A发生的条件下,事件B发生的概率。
性质
- 非负性
- 规范性
- 可列可加性。
乘法定理
P ( A B ) = P ( A ) P ( B ∣ A ) P(AB)=P(A)P(B|A) P(AB)=P(A)P(B∣A)
也是一种链式法则。图解的方式理解。
P ( A B ∣ 1 ) = P ( A ∣ 1 ) P ( B ∣ A ) P(AB|1)=P(A|1)P(B|A) P(AB∣1)=P(A∣1)P(B∣A)
全概率公式
设试验 E E E样本空间为 S S S, A A A为试验的实践, B 1 , ⋯ , B n B_1,\dotsm,B_n B1,⋯,Bn为S的一个划分,且 P ( B i ) > 0 P(B_i)>0 P(Bi)>0,则:
P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + ⋯ + P ( A ∣ B n ) P ( B n ) = ∑ i n P ( A ∣ B i ) P ( B i ) P(A)=P(A|B_1)P(B_1)+\dotsm+P(A|B_n)P(B_n)\\ =\sum_i^nP(A|B_i)P(B_i) P(A)=P(A∣B1)P(B1)+⋯+P(A∣Bn)P(Bn)=i∑nP(A∣Bi)P(Bi)
贝叶斯公式
设试验 E E E样本空间为 S S S, A A A为试验的实践, B 1 , ⋯ , B n B_1,\dotsm,B_n B1,⋯,Bn为S的一个划分,且 P ( A ) > 0 , P ( B i ) > 0 P(A)>0,P(B_i)>0 P(A)>0,P(Bi)>0,则:
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 n P ( A ∣ B j ) P ( B j ) P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^nP(A|B_j)P(B_j)} P(Bi∣A)=∑j=1nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
起到了交换条件与结果的作用。
1.4 独立性
定义
如果A,B是两个事件,满足:
P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)
则称事件A,B相互独立。即事件A的发生对事件B没有影响。
定理一
若A,B相互独立,则 P ( B ∣ A ) = P ( B ) P(B|A)=P(B) P(B∣A)=P(B).
定理二
若A,B相互独立,则下列事件也相互独立:
A B ‾ , A ‾ B , A ‾ B ‾ A\overline{B},\overline{A}B,\overline{A}\overline{B} AB,AB,AB
2 随机变量的分布
2.1 随机变量
定义
样本空间 S = e S={e} S=e, X = X ( e ) X=X(e) X=X(e)是定义在样本空间上的实值单值函数,称 X = X ( e ) X=X(e) X=X(e)为随机变量。
2.2 离散型随机变量及其概率分布
定义
随机变量的取值是有限个或者无限多个。随机变量 X X X所有可能的取值为 x k x_k xk,随机变量的分布律记为:
P ( X = x k ) = P k , k = 1 , 2 , 3 , ⋯ P(X=x_k)=P_k,k=1,2,3,\dotsm P(X=xk)=Pk,k=1,2,3,⋯
性质
- P k ≥ 0 P_k\geq 0 Pk≥0
- ∑ P k = 1 \sum P_k=1 ∑Pk=1
分布律
- 表格形式给出每个随机变量的分布律。
- 代数公式表示随机变量的分布律。
01分布
P ( X = k ) = p k ( 1 − p ) 1 − k , k = 0 , 1 P(X=k)=p^k(1-p)^{1-k},k=0,1 P(X=k)=pk(1−p)1−k,k=0,1
伯努利实验-二项分布 X ∼ b ( n , p ) X\sim b(n,p) X∼b(n,p):
X表示n重伯努利实验事件A发生的次数。
P ( X = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , ⋯ , n P(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1,\dotsm,n P(X=k)=Cnkpk(1−p)n−k,k=0,1,⋯,n
泊松分布 X ∼ π ( λ ) X\sim \pi (\lambda) X∼π(λ):
P ( X = k ) = λ k e − λ k ! , k = 1 , 2 , ⋯ , P(X=k)=\frac{\lambda ^ke^{-\lambda}}{k!},k=1,2,\dotsm, P(X=k)=k!λke−λ,k=1,2,⋯,
泊松定理(用泊松分布来逼近二项分布):
λ \lambda λ是一个大于零的常数,n是任意正整数, λ = n P n \lambda =nP_n λ=nPn,则对于任意固定的非负整数k,有:
lim n → + ∞ 1 n ( n + 1 ) \lim\limits_{n \rightarrow +\infty} \frac{1}{n(n+1)} n→+∞limn(n+1)1
lim n → ∞ C n k p n k ( 1 − p n ) n − k = λ k e − λ k ! \lim\limits_{n \rightarrow \infty} C_n^kp_n^k(1-p_n)^{n-k}=\frac{\lambda ^ke^{-\lambda}}{k!} n→∞limCnkpnk(1−pn)n−k=k!λke−λ
2.3 随机变量的分布函数
定义
X是一个随机变量,x是任意实数,以下称为X的分布函数:
F ( x ) = P ( X ≤ x ) , − ∞ ≤ x ≤ + ∞ F(x)=P(X\leq x),-\infty \leq x \leq +\infty F(x)=P(X≤x),−∞≤x≤+∞
F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^x f(t)dt F(x)=∫−∞xf(t)dt
2.4 连续性随机变量
定义
X为连续性随机变量,f(x)称为随机变量的概率密度。
性质
- f ( x ) ≥ 0 f(x)\geq 0 f(x)≥0
- ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty}f(x)dx=1 ∫−∞+∞f(x)dx=1
- P ( x 1 < X < x 2 > ) = F ( x 2 ) − F ( x 1 ) = ∫ x 1 x 2 f ( x ) d x P(x_1<X<x_2>)=F(x_2)-F(x_1)=\int_{x_1}^{x_2}f(x)dx P(x1<X<x2>)=F(x2)−F(x1)=∫x1x2f(x)dx
- 若f(x)在x处连续,则:
F ′ = F ( x ) F^\prime=F(x) F′=F(x)
均匀分布 X ∼ U ( a , b ) X\sim U(a,b) X∼U(a,b):
f ( x ) = { 1 b − a a < x ≤ b 0 e l s e f(x)= \begin{cases} \frac{1}{b-a} & a<x\leq b \\ 0 & else \end{cases} f(x)={b−a10a<x≤belse
指数分布
f ( x ) = { 1 θ e − x θ x > 0 0 e l s e f(x)= \begin{cases} \frac{1}{\theta}e^{-\frac{x}{\theta}}& x>0 \\ 0& else \end{cases} f(x)={θ1e−θx0x>0else
指数分布具有无记忆性。
正太分布或高斯分布 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2):
f ( x ) = 1 2 π σ e − x − μ 2 2 σ 2 , − ∞ < x < + ∞ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{{x-\mu}^2}{2 \sigma^2}},-\infty < x < + \infty f(x)=2πσ1e−2σ2x−μ2,−∞<x<+∞
相关性质:
- 关于 x = μ x=\mu x=μ对称
- x = μ x=\mu x=μ时取到最大值。 f ( x ) = 1 2 π f(x)=\frac{1}{\sqrt{2\pi}} f(x)=2π1
- Z = X − μ σ ∼ N ( 0 , 1 ) Z=\frac{X-\mu}{\sigma}\sim N(0,1) Z=σX−μ∼N(0,1)
3 多维随机变量
需要补充联合概率密度相关的内容,边缘概率密度
3.1 二维随机变量
二维随机变量定义
随机实验 E E E,样本空间 S = { e } S=\{e\} S={e}, X = X ( e ) , Y = Y ( e ) X=X(e),Y=Y(e) X=X(e),Y=Y(e)是定义在 S S S上的一个随机变量。由他们构成的向量 ( X , Y ) (X,Y) (X,Y)称为二维随机变量
分布函数
设 ( X , Y ) (X,Y) (X,Y)是二维随机变量,对于任意实数x,y,有
F ( x , y ) = P ( ( X ≤ x ) ∩ ( Y ≤ y ) ) ⇔ P ( X ≤ x , Y ≤ y ) F(x,y)=P((X\leq x)\cap(Y\leq y))\Leftrightarrow P(X\leq x,Y\leq y) F(x,y)=P((X≤x)∩(Y≤y))⇔P(X≤x,Y≤y)
称为二维随机变量(X,Y)的分布函数。或者随机变量X,Y的联合分布函数
分布函数的性质
- F ( x , y ) F(x,y) F(x,y)对于任意一个随机变量是一个不减函数。
- 0 ≤ F ( x , y ) ≤ 1 0\leq F(x,y) \leq 1 0≤F(x,y)≤1
- F ( x , y ) F(x,y) F(x,y)关于x右连续,关于y右连续
- x 2 > x 1 , y 2 > y 1 x_2 > x_1,y_2>y_1 x2>x1,y2>y1
F ( x 2 , y 2 ) − F ( x 2 , y 1 ) − F ( x 1 , y 2 ) + F ( x 1 , y 1 ) ≥ 0 F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)\geq 0 F(x2,y2)−F(x2,y1)−F(x1,y2)+F(x1,y1)≥0
二维离散型随机变量联合分布律
P ( X = x i , Y = y i ) = p i j P(X=x_i,Y=y_i)=p_{ij} P(X=xi,Y=yi)=pij
称为二维离散随机变量(X,Y)的分布律,或者随机变量X,Y的联合分布律。
二维离散型随机变量(X,Y)的分布函数
F ( x , y ) = ∑ x i ≤ x ∑ y i ≤ y p i j F(x,y)=\sum_{x_i\leq x}\sum_{y_i\leq y}p_{ij} F(x,y)=xi≤x∑yi≤y∑pij
二维连续型随机变量联合概率密度
f ( x , y ) f(x,y) f(x,y)
称为二维连续型随机变量的概率密度或者随机变量X,Y的联合概率密度。
二维连续型随机变量(X,Y)的分布函数
F ( x , y ) = ∫ − ∞ y ∫ − ∞ x f ( u , v ) d u d v F(x,y)=\int_{-\infty}^y\int_{-\infty}^xf(u,v)dudv F(x,y)=∫−∞y∫−∞xf(u,v)dudv
概率密度f(x,y)性质
- f ( x , y ) ≥ 0 f(x,y)\geq 0 f(x,y)≥0
- F ( x , y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( u , v ) d u d v = 1 F(x,y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(u,v)dudv=1 F(x,y)=∫−∞+∞∫−∞+∞f(u,v)dudv=1
- G是平面上的区域则:
P ( ( X , Y ) ∈ G ) = ∬ G f ( x , y ) d x d y P((X,Y)\in G)=\iint_Gf(x,y)dxdy P((X,Y)∈G)=∬Gf(x,y)dxdy - f(x,y)在点(x,y)处连续,
∂ 2 F ( x , y ) ∂ x ∂ y = f ( x , y ) \frac{\partial^2 F(x,y)}{\partial x \partial y}=f(x,y) ∂x∂y∂2F(x,y)=f(x,y)
n维随机变量的分布函数也具有以上性质。
3.2 边缘分布
边缘分布定义
二维随机变量有各自的分布函数 F x ( x ) , F y ( y ) F_x(x),Fy(y) Fx(x),Fy(y),称为二维随机变量的边缘分布。
F x ( x ) = P ( X ≤ x ) = P ( X ≤ x , Y < ∞ ) = F ( x , ∞ ) F_x(x)=P(X\leq x)=P(X\leq x,Y < \infty)=F(x,\infty) Fx(x)=P(X≤x)=P(X≤x,Y<∞)=F(x,∞)
边缘分布律
离散型随机变量(X,Y)的边缘分布律
p i ⋅ = ∑ j = 1 ∞ p i j p ⋅ j = ∑ i = 1 ∞ p i j p_{i\cdot}=\sum_{j=1}^{\infty}p_{ij} \\ p_{\cdot j}=\sum_{i=1}^{\infty}p_{ij} pi⋅=j=1∑∞pijp⋅j=i=1∑∞pij
连续型随机变量(X,Y)的边缘密度函数
f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f Y ( y ) = ∫ − ∞ + ∞ f ( x , y ) d x f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy \\ f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx fX(x)=∫−∞+∞f(x,y)dyfY(y)=∫−∞+∞f(x,y)dx
3.3 条件分布
条件分布律定义
二维随机变量(X,Y),X在 Y j Y_j Yj条件下的条件分布律为:
P ( X = x i ∣ Y = y j ) = p i j p ⋅ j P(X=x_i|Y=y_j)=\frac{p_{ij}}{p_{\cdot j}} P(X=xi∣Y=yj)=p⋅jpij
条件概率密度定义
二维随机变量(X,Y),X在Y=y条件下的条件概率密度:
f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)} fX∣Y(x∣y)=fY(y)f(x,y)
3.4 相互独立的随机变量
定义
P ( X ≤ x , Y ≤ y ) = P ( X ≤ x ) P ( Y ≤ y ) f ( x , y ) = f X ( x ) f Y ( y ) F ( x , y ) = F X ( x ) F Y ( y ) P(X\leq x,Y\leq y)=P(X\leq x)P(Y\leq y) \\ f(x,y)=f_X(x)f_Y(y)\\ F(x,y)=F_X(x)F_Y(y) \\ P(X≤x,Y≤y)=P(X≤x)P(Y≤y)f(x,y)=fX(x)fY(y)F(x,y)=FX(x)FY(y)
满足上述条件的随机变量X与Y是相互独立的。
3.5 两个随机变量的函数的分布
Z=X+Y的概率分布
f X + Y ( z ) = ∫ − ∞ + ∞ f ( z − y , y ) d y f X + Y ( z ) = ∫ − ∞ + ∞ f ( x , y − x ) d x f_{X+Y}(z)=\int_{-\infty}^{+\infty}f(z-y,y)dy \\ f_{X+Y}(z)=\int_{-\infty}^{+\infty}f(x,y-x)dx fX+Y(z)=∫−∞+∞f(z−y,y)dyfX+Y(z)=∫−∞+∞f(x,y−x)dx
这个地方有点像二维积分通过关系式进行了简化(我可能又要重新复习高等数学的微积分知识了。
卷积公式
如果X,Y两个随机变量相互独立,则能得到以下公式
f X + Y ( z ) = ∫ − ∞ + ∞ f X ( z − y ) f Y ( y ) d y f X + Y ( z ) = ∫ − ∞ + ∞ f X ( x ) f Y ( z − x ) d x f_{X+Y}(z)=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy \\ f_{X+Y}(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx fX+Y(z)=∫−∞+∞fX(z−y)fY(y)dyfX+Y(z)=∫−∞+∞fX(x)fY(z−x)dx
这里的 f X , f Y f_X,f_Y fX,fY称为卷积公式。
很神奇,概率论矩阵啥的,最后还要用到基础的微积分数学工具。
Z=Y/X与Z=XY的概率分布
f X / Y ( z ) = ∫ − ∞ + ∞ f ( x , x z ) d x f X Y ( z ) = ∫ − ∞ + ∞ f ( x , z / x ) d x f_{X/Y}(z)=\int_{-\infty}^{+\infty}f(x,xz)dx \\ f_{XY}(z)=\int_{-\infty}^{+\infty}f(x,z/x)dx fX/Y(z)=∫−∞+∞f(x,xz)dxfXY(z)=∫−∞+∞f(x,z/x)dx
若果X,Y两个随机变量相互独立,则能得到以下公式
f X / Y ( z ) = ∫ − ∞ + ∞ f X ( x ) f Y ( x z ) d x f X Y ( z ) = ∫ − ∞ + ∞ f X ( x ) f Y ( z / x ) d x f_{X/Y}(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(xz)dx \\ f_{XY}(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z/x)dx fX/Y(z)=∫−∞+∞fX(x)fY(xz)dxfXY(z)=∫−∞+∞fX(x)fY(z/x)dx
M = m a x { X , Y } , N = m i n { X , Y } M=max\{X,Y\},N=min\{X,Y\} M=max{X,Y},N=min{X,Y}的概率分布
P m a x ( z ) = P ( X ≤ z , Y ≤ z ) F m a x ( z ) = F X ( z ) F Y ( z ) F m i n ( z ) = 1 − ( 1 − F X ( z ) ) ( 1 − F Y ( z ) ) P_{max}(z)=P({X\leq z},Y\leq z)\\ F_{max}(z)=F_X(z)F_Y(z) \\ F_{min}(z)=1-(1-F_X(z))(1-F_Y(z)) Pmax(z)=P(X≤z,Y≤z)Fmax(z)=FX(z)FY(z)Fmin(z)=1−(1−FX(z))(1−FY(z))
可以将以上讨论扩展到n个随机变量
4. 随机变量的数字特征
这里并非统计量,而是估计量。即通过概率计算得到的总体的估计值,是数据特征。
4.1 数学期望或均值
主要包括数学期望的定义式,基本四则运算,与常见概率分布的数学期望的复杂运算。
定义
离散型 E ( X ) = ∑ k ∞ x k p k E(X)=\sum_k^\infty x_kp_k E(X)=∑k∞xkpk
连续型 E ( x ) = ∫ − ∞ ∞ x f ( x ) d x E(x)=\int_{-\infty}^{\infty}xf(x)dx E(x)=∫−∞∞xf(x)dx
常见数学期望
X ∼ π ( λ ) ; E ( x ) = λ X ∼ U ( a , b ) ; E ( x ) = a + b 2 X\sim \pi(\lambda);E(x)=\lambda \\ X\sim U(a,b);E(x)=\frac{a+b}{2} X∼π(λ);E(x)=λX∼U(a,b);E(x)=2a+b
数学期望的性质
- 常数期望不变: E ( C ) = C E(C)=C E(C)=C
- 数称特性: E ( a X ) = a E ( X ) E(aX)=aE(X) E(aX)=aE(X)
- 高维线性可加性XY不必独立: E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
- 高维乘积X与Y相互独立: E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)
数学期望定理(运算公式):
Y = g ( X ) , P ( X = x k ) = p k E ( Y ) = E ( g ( X ) ) = ∑ k = 1 ∞ g ( x k ) p k E ( Y ) = E ( g ( x ) ) = ∫ − ∞ ∞ g ( x ) f ( x ) d x Y=g(X),P(X=x_k)=p_k\\ E(Y)=E(g(X))=\sum_{k=1}^{\infty}g(x_k)p_k \\ E(Y)=E(g(x))=\int_{-\infty}^{\infty}g(x)f(x)dx Y=g(X),P(X=xk)=pkE(Y)=E(g(X))=k=1∑∞g(xk)pkE(Y)=E(g(x))=∫−∞∞g(x)f(x)dx
利用定理可以直接计算变换后的函数密度。
4.2 方差
主要包括方差的定义式,基本四则运算,与常见概率分布的方差的复杂运算。
定义
定义式: D ( X ) = V a r ( X ) = E ( ( X − E ( X ) ) 2 ) D(X)=Var(X)=E((X-E(X))^2) D(X)=Var(X)=E((X−E(X))2)
离散型: D ( X ) = ∑ 1 ∞ ( x k − E ( X ) ) 2 p k D(X)=\sum_1^\infty (x_k-E(X))^2p_k D(X)=∑1∞(xk−E(X))2pk
连续型: D ( X ) = ∫ − ∞ + ∞ ( x − E ( x ) ) 2 f ( x ) d x D(X)=\int_{-\infty}^{+\infty}(x-E(x))^2f(x)dx D(X)=∫−∞+∞(x−E(x))2f(x)dx
简化式: D ( X ) = E ( X 2 ) − ( E ( X ) ) 2 D(X)=E(X^2)-(E(X))^2 D(X)=E(X2)−(E(X))2
常见的方差
X ∼ B ( 0 , 1 ) , D ( X ) = p ( 1 − p ) X\sim B(0,1),D(X)=p(1-p) X∼B(0,1),D(X)=p(1−p)
X ∼ N ( μ , σ 2 ) , D ( X ) = σ 2 X\sim N(\mu,\sigma^2),D(X)=\sigma^2 X∼N(μ,σ2),D(X)=σ2
X ∼ π ( λ ) , D ( X ) = λ X\sim \pi(\lambda),D(X)=\lambda X∼π(λ),D(X)=λ
X ∼ U ( a , b ) , D ( X ) = ( b − a ) 2 12 X\sim U(a,b),D(X)=\frac{(b-a)^2}{12} X∼U(a,b),D(X)=12(b−a)2
方差的性质
- 常数不变性:C是常数, D ( C ) = 0 D(C)=0 D(C)=0
- 数乘特性: D ( C X ) = C 2 D ( X ) D(CX)=C^2D(X) D(CX)=C2D(X)
- 高维独立可加性:若X,Y相互独立,则 D ( X + Y ) = D ( X ) + D ( Y ) D(X+Y)=D(X)+D(Y) D(X+Y)=D(X)+D(Y)
- P ( X = E ( X ) ) = 1 ⇔ D ( X ) = 0 P(X=E(X))=1 \Leftrightarrow D(X)=0 P(X=E(X))=1⇔D(X)=0
4.3 协方差与相关系数
主要包括协方差的定义式,基本四则运算。
定义
C o v ( X , Y ) = E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) = E ( X Y ) − E ( X ) E ( Y ) 样本 = ∑ ( x i − x ‾ ) ( y i − y ‾ ) ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) Cov(X,Y)=E((X-E(X))(Y-E(Y))) \\ =E(XY)-E(X)E(Y)\\ 样本=\sum(x_i-\overline{x})(y_i-\overline{y})\\ \rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} Cov(X,Y)=E((X−E(X))(Y−E(Y)))=E(XY)−E(X)E(Y)样本=∑(xi−x)(yi−y)ρXY=D(X)D(Y)Cov(X,Y)
X,Y 相互独立时, C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0
协方差含义
当求高数随机变量的方差时,如果随机变量不独立,会产生交叉项。高维乘积的方差,存在交叉项。
D ( X + Y ) = E ( ( X − E ( X ) ) 2 ) + E ( ( Y − E ( Y ) ) 2 ) + 2 E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) D ( X + Y ) = D ( X ) + D ( Y ) + 2 C o v ( X , Y ) D(X+Y)=E((X-E(X))^2)+E((Y-E(Y))^2)+2E((X-E(X))(Y-E(Y))) \\ D(X+Y)=D(X)+D(Y)+2Cov(X,Y) \\ D(X+Y)=E((X−E(X))2)+E((Y−E(Y))2)+2E((X−E(X))(Y−E(Y)))D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
相关系数是协方差的标准化。用来表示X与Y的相关性。
协方差性质
- 当X与Y独立时: C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0
- C为常数: C o v ( X , C ) = 0 Cov(X,C)=0 Cov(X,C)=0
- 完全相关: C o v ( X , X ) = D ( X ) Cov(X,X)=D(X) Cov(X,X)=D(X)
- 交换律: C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X) Cov(X,Y)=Cov(Y,X)
- 线性可加性: C o v ( a X + c , b Y + d ) = a b C o v ( X , Y ) Cov(aX+c,bY+d)=abCov(X,Y) Cov(aX+c,bY+d)=abCov(X,Y)
- 分配率: C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
- 当X与Y不独立时: D ( X + Y ) = D ( X ) + D ( Y ) + C o v ( X , Y ) D(X+Y)=D(X)+D(Y)+Cov(X,Y) D(X+Y)=D(X)+D(Y)+Cov(X,Y)
相关系数性质
- ∣ ρ X Y ∣ ≤ 1 |\rho_{XY}|\leq 1 ∣ρXY∣≤1
- ∣ ρ X Y ∣ = 1 ⇔ P ( Y = a X + b ) = 1 |\rho_{XY}|=1 \Leftrightarrow P(Y=aX+b)=1 ∣ρXY∣=1⇔P(Y=aX+b)=1,即两者之间存在线性关系。
- ρ = 0 \rho = 0 ρ=0,XY两者不相关
4.4 矩、协方差矩阵
定义
k阶原点矩: E ( X k ) E(X^k) E(Xk).
k阶中心矩: E ( ( X − E ( X ) ) k ) E((X-E(X))^k) E((X−E(X))k)
切比雪夫不等式
随机变量X具有数学期望 E ( X ) = μ , D ( X ) = σ 2 E(X)=\mu,D(X)=\sigma^2 E(X)=μ,D(X)=σ2。对于任意正数 ϵ \epsilon ϵ,不等式成立:
P ( ∣ X − μ ∣ ≥ ϵ ) ≤ σ 2 ϵ 2 或 P ( ∣ X − μ ∣ < ϵ ) ≥ 1 − σ 2 ϵ 2 P(|X-\mu|\geq\epsilon)\leq\frac{\sigma^2}{\epsilon^2} \\ 或 P(|X-\mu|< \epsilon)\geq 1-\frac{\sigma^2}{\epsilon^2} P(∣X−μ∣≥ϵ)≤ϵ2σ2或P(∣X−μ∣<ϵ)≥1−ϵ2σ2
相关性质以后再补充。
5. 大数定律和中心极限定理
5.1 大数定律
弱大数定理(辛钦大数定理)
X 1 , X 2 , ⋯ X_1,X_2,\dotsm X1,X2,⋯独立同分布, E ( X k ) = μ E(X_k)=\mu E(Xk)=μ,对于任意的 ϵ ≥ 0 \epsilon \geq 0 ϵ≥0,有:(可以证明)
lim n → 0 P ( ∣ 1 n ∑ k = 1 n x k − μ ∣ < ϵ ) = 1 \lim\limits_{n\rightarrow 0}P(|\frac{1}{n}\sum_{k=1}^nx_k-\mu|<\epsilon)=1 n→0limP(∣n1k=1∑nxk−μ∣<ϵ)=1
X ‾ = 1 n ∑ k = 1 n x k \overline{X}=\frac{1}{n} \sum_{k=1}^nx_k X=n1∑k=1nxk算术平拘束依概率收敛于 μ \mu μ,即 X ‾ → P μ \overline{X}\xrightarrow{P}\mu XPμ
伯努利大数定理
设 f A f_A fA是n次实验中事件A发生的次数,P是每次实验中A发生的概率。则有(可以理解)
lim n → ∞ P ( ∣ f A n − p ∣ < ϵ ) = 1 lim n → ∞ P ( ∣ f A n − p ∣ ≥ ϵ ) = 0 \lim\limits_{n\rightarrow\infty}P(|\frac{f_A}{n}-p|<\epsilon)=1 \\ \lim\limits_{n\rightarrow\infty}P(|\frac{f_A}{n}-p|\geq\epsilon)=0 n→∞limP(∣nfA−p∣<ϵ)=1n→∞limP(∣nfA−p∣≥ϵ)=0
5.2 中心极限定理
定理一(独立同分布的中心极限定理)
X 1 , X 2 , ⋯ X_1,X_2,\dotsm X1,X2,⋯独立同分布, E ( X k ) = μ , D ( X k ) = σ 2 E(X_k)=\mu,D(X_k)=\sigma^2 E(Xk)=μ,D(Xk)=σ2,则随机化变量之和的标准化变量为:
Y n = ∑ k = 1 n X k − n μ n σ Y_n=\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma} Yn=nσ∑k=1nXk−nμ
它的概率分布为:
lim n → ∞ F n ( x ) = ∫ − ∞ x 1 2 π e − t 2 2 d t \lim\limits_{n\rightarrow\infty}F_n(x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt n→∞limFn(x)=∫−∞x2π1e2−t2dt
含义说明: E ( X k ) = μ , D ( X k ) = σ 2 E(X_k)=\mu,D(X_k)=\sigma^2 E(Xk)=μ,D(Xk)=σ2的独立同分布的随机变量的和的标准化变量 Y n Y_n Yn,当n足够大时,近似服从标准化正太分布。
定理二(李雅普诺夫定理)
X 1 , X 2 , ⋯ X_1,X_2,\dotsm X1,X2,⋯相互独立,但并不是同分布。
E ( X k ) = μ k , D ( X k ) = σ k 2 E(X_k)=\mu_k,D(X_k)=\sigma_k^2 E(Xk)=μk,D(Xk)=σk2,则随机化变量之和的标准化变量为:
Z n = ∑ k = 1 n X k − ∑ k = 1 n μ k ∑ k = 1 n σ k 2 Z_n=\frac{\sum_{k=1}^nX_k-\sum_{k=1}^n\mu_k}{\sum_{k=1}^n\sigma_k^2} Zn=∑k=1nσk2∑k=1nXk−∑k=1nμk
它的概率分布为:
lim n → ∞ F n ( x ) = ∫ − ∞ x 1 2 π e − t 2 2 d t \lim\limits_{n\rightarrow\infty}F_n(x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt n→∞limFn(x)=∫−∞x2π1e2−t2dt
含义说明,无论各个随机变量服从什么样的分布,当n足够大时,他们和的标准化变量 Z n Z_n Zn都服从正太分布。
定理三(迪莫夫拉普拉斯定理)
设随机变量 η n \eta_n ηn服从(n,p)二项分布。对于任意的x有:
lim n → ∞ P ( η n − n p n p ( 1 − p ) ≤ x ) = ∫ − ∞ x 1 2 π e − t 2 2 d t \lim\limits_{n\rightarrow\infty}P(\frac{\eta_n-np}{\sqrt{np(1-p)}}\leq x)=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt n→∞limP(np(1−p)ηn−np≤x)=∫−∞x2π1e2−t2dt
含义说明:正态分布是二项分布的极限分布。