AI小白的第七天：必要的数学知识（概率）

概率 Probability

1. 概率的定义

概率是一个介于 0 和 1 之间的数，表示某个事件发生的可能性：

0：事件不可能发生。
1：事件必然发生。
0 到 1 之间：事件发生的可能性大小。

例如，掷一枚公平的硬币，正面朝上的概率是 0.5。

2. 概率的计算

（1）频率学派

抛一万次硬币，看硬币正面向上的概率。
$P_n(x)=\frac{n_x}{n}$

$x$ 代表证明朝上；
$n$ 为实验总数;
$n_x$ 为实验过程中发生x的次数。

这种方式，实验成本高，且误差不可控，概率始终是个近似值。

（2）古典学派

样本空间中，每个结果发生的可能性相等，则事件A的概率为：
$P(A)=\frac{|A|}{|S|}$

其中|A|是事件A的结果数
|S|是样本空间的结果数

（3）贝叶斯学派

$P(A|B)=\frac{P(B|A) \cdot P(A)}{P(B)}$

P(A）表示事件A发生的概率，称为先验（prior）概率；
P(B)表示事件B发生的概率，称为标准化常量或者证据（evidence）；
P（B|A）表示在事件A发生的条件下，事件B发生的概率，通常称之为可能性或者似然（likelihood）；
P（A|B）表示在事件B发生的条件下，事件A发生的概率，也称为后验（posterior），也就是表示了事件发生了，并且它属于某一类别的概率；

在这里插入图片描述

最大似然估计 Maximum Likelihood Estimation, MLE

1. 基本概念

参数估计：在统计学中，我们通常假设数据服从某个概率分布（如正态分布、泊松分布等），而分布的参数（如均值、方差）需要通过数据来估计。
似然函数：给定一组参数，似然函数描述了观测数据在该参数下出现的概率。
最大似然估计：通过最大化似然函数，找到最可能生成观测数据的参数值。

$\hat \theta =argmaxP(X|\theta)$

$\hat \theta$ 是最优参数
$a r g ma x$ 表示求使得 $P(X|\theta)$ 最大化的参数值。

2. 似然函数的定义

假设观测数据为 $X={x_1,x_2,...,x_3}$ ,且数据服从某个概率分布 $P(X|\theta)$ ，其中 $\theta$ 是分布的参数。似然函数定义为

$L(\theta)=P(X|\theta)=\prod_{i=1}^n P(x_i|\theta)$

3. 最大似然估计的步骤

（1）写出似然函数

根据数据分布假设，写出似然函数 $L (θ)$ 。

（2）取对数似然函数

为了简化计算，通常对似然函数取对数，得到对数似然函数：
$\ln L(\theta) = \sum_{i=1}^n \ln P(x_i|\theta)$

（3）取对数似然函数

对对数似然函数关于参数 $θ$ 求导，并令导数为零，求解使似然函数最大的参数值：
$\frac{d}{d\theta}\ln L(\theta) =0$

（4）求解参数

解上述方程，得到参数的估计值 $\hat \theta$ 。

关于“最大似然值估计”，我明白它干的事情了，但是过程现在实在是没搞懂，暂时先放一放，后面想通了以后专门出一篇理解的过程。

概率分布

在计算最大似然值的时候，要选对概率分布的类型。

a.伯努利分布（Bernoulli Distribution）**

定义：只有两个可能结果的单次试验的概率分布，即成功和失败。
参数：成功的概率 $p$（0 ≤ p ≤ 1）。
概率质量函数（PMF）：P(X=1) = p, P(X=0) = 1-p。

b. 二项分布（Binomial Distribution）

定义：在固定次数的独立试验中，每次试验只有两种可能结果（成功或失败），且每次试验成功的概率相同的概率分布。
参数：试验次数 $n$ 和成功的概率 $p$。
概率质量函数（PMF）：P(X=k) = C(n, k) × p^k × (1-p)^(n-k)，其中 C(n, k) 是组合数，即从 n 个不同元素中取出 k 个元素的组合方式数量。

c. 泊松分布（Poisson Distribution）

定义：用于预测在固定时间间隔内某事件平均发生 $λ$ 次的条件下，该事件实际发生 $k$ 次的概率。
参数：事件发生的平均率 $λ$（λ > 0）。
概率质量函数（PMF）：P(X=k) = (λ^k / k!) × e^(-λ)。

2. 连续型概率分布

a. 均匀分布（Uniform Distribution）

定义：在某一区间 [a, b] 内所有值出现的概率相等的概率分布。
参数：区间的下限 $a$ 和上限 $b$（a < b）。
概率密度函数（PDF）：f(x) = 1 / (b - a)（当 a ≤ x ≤ b 时）；否则 f(x) = 0。

b. 正态分布（Normal Distribution）/高斯分布（Gaussian Distribution）

定义：最常见的连续概率分布之一，许多自然现象都近似服从正态分布。
参数：均值 $μ$ 和标准差 $σ$（σ > 0）。
概率密度函数（PDF）：f(x) = (1 / (√(2π)σ)) × e^[-(x-μ)2 / (2σ^2)]。

c. 指数分布（Exponential Distribution）

定义：描述两个相继发生的事件之间的时间间隔的概率分布，常用于可靠性理论和排队论。
参数：率参数 $λ$（λ > 0），与泊松分布的 $λ$ 相关，但意义不同。
概率密度函数（PDF）：f(x) = λe^(-λx)（当 x ≥ 0 时）；否则 f(x) = 0。

3. 其他重要分布

a. 卡方分布（Chi-Squared Distribution）

定义：与正态分布的样本方差有关的概率分布，常用于假设检验。
参数：自由度 $ν$（ν 为正整数）。

b. t分布（Student’s t-Distribution）

定义：在小样本情况下估计总体均值的统计量的分布，常用于假设检验。
参数：自由度 $ν$（ν 为正整数）。

c. F分布（F-Distribution）

定义：两个独立的卡方分布变量的比率的分布，常用于方差分析。
参数：分子自由度 $ν_1$ 和分母自由度 $ν_2$（两者均为正整数）。