AI小白的第七天:必要的数学知识(概率)

ops/2025/3/25 23:54:41/

概率 Probability

1. 概率的定义

概率是一个介于 0 和 1 之间的数,表示某个事件发生的可能性:

  • 0:事件不可能发生。
  • 1:事件必然发生。
  • 0 到 1 之间:事件发生的可能性大小。

例如,掷一枚公平的硬币,正面朝上的概率是 0.5。


2. 概率的计算

(1)频率学派

抛一万次硬币,看硬币正面向上的概率。
P n ( x ) = n x n P_n(x)=\frac{n_x}{n} Pn(x)=nnx

  • x x x代表证明朝上;
  • n n n为实验总数;
  • n x n_x nx为实验过程中发生x的次数。

这种方式,实验成本高,且误差不可控,概率始终是个近似值。

(2)古典学派

样本空间中,每个结果发生的可能性相等,则事件A的概率为:
P ( A ) = ∣ A ∣ ∣ S ∣ P(A)=\frac{|A|}{|S|} P(A)=SA

  • 其中|A|是事件A的结果数
  • |S|是样本空间的结果数
(3)贝叶斯学派

P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A|B)=\frac{P(B|A) \cdot P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

  • P(A)表示事件A发生的概率,称为先验(prior)概率;
  • P(B)表示事件B发生的概率,称为标准化常量或者证据(evidence);
  • P(B|A)表示在事件A发生的条件下,事件B发生的概率,通常称之为可能性或者似然(likelihood);
  • P(A|B)表示在事件B发生的条件下,事件A发生的概率,也称为后验(posterior),也就是表示了事件发生了,并且它属于某一类别的概率;

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

最大似然估计 Maximum Likelihood Estimation, MLE

1. 基本概念

  • 参数估计:在统计学中,我们通常假设数据服从某个概率分布(如正态分布、泊松分布等),而分布的参数(如均值、方差)需要通过数据来估计。
  • 似然函数:给定一组参数,似然函数描述了观测数据在该参数下出现的概率。
  • 最大似然估计:通过最大化似然函数,找到最可能生成观测数据的参数值。

θ ^ = a r g m a x P ( X ∣ θ ) \hat \theta =argmaxP(X|\theta) θ^=argmaxP(Xθ)

  • θ ^ \hat \theta θ^ 是最优参数
  • a r g m a x argmax argmax表示求使得 P ( X ∣ θ ) P(X|\theta) P(Xθ)最大化的参数值。

2. 似然函数的定义

假设观测数据为 X = x 1 , x 2 , . . . , x 3 X={x_1,x_2,...,x_3} X=x1,x2,...,x3,且数据服从某个概率分布 P ( X ∣ θ ) P(X|\theta) P(Xθ),其中 θ \theta θ是分布的参数。似然函数定义为

L ( θ ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta)=P(X|\theta)=\prod_{i=1}^n P(x_i|\theta) L(θ)=P(Xθ)=i=1nP(xiθ)

3. 最大似然估计的步骤

(1)写出似然函数

根据数据分布假设,写出似然函数 L ( θ ) L(θ) L(θ)

(2)取对数似然函数

为了简化计算,通常对似然函数取对数,得到对数似然函数:
ln ⁡ L ( θ ) = ∑ i = 1 n ln ⁡ P ( x i ∣ θ ) \ln L(\theta) = \sum_{i=1}^n \ln P(x_i|\theta) lnL(θ)=i=1nlnP(xiθ)

(3)取对数似然函数

对对数似然函数关于参数 θ θ θ 求导,并令导数为零,求解使似然函数最大的参数值:
d d θ ln ⁡ L ( θ ) = 0 \frac{d}{d\theta}\ln L(\theta) =0 dθdlnL(θ)=0

(4)求解参数

解上述方程,得到参数的估计值 θ ^ \hat \theta θ^

关于“最大似然值估计”,我明白它干的事情了,但是过程现在实在是没搞懂,暂时先放一放,后面想通了以后专门出一篇理解的过程。

概率分布

在计算最大似然值的时候,要选对概率分布的类型。

a.伯努利分布(Bernoulli Distribution)**
  • 定义只有两个可能结果的单次试验的概率分布,即成功和失败。
  • 参数:成功的概率 $p$(0 ≤ p ≤ 1)。
  • 概率质量函数(PMF):P(X=1) = p, P(X=0) = 1-p。
b. 二项分布(Binomial Distribution)
  • 定义:在固定次数的独立试验中,每次试验只有两种可能结果(成功或失败),且每次试验成功的概率相同的概率分布
  • 参数:试验次数 $n$ 和成功的概率 $p$。
  • 概率质量函数(PMF):P(X=k) = C(n, k) × p^k × (1-p)^(n-k),其中 C(n, k) 是组合数,即从 n 个不同元素中取出 k 个元素的组合方式数量。
c. 泊松分布(Poisson Distribution)
  • 定义:用于预测在固定时间间隔内某事件平均发生 $λ$ 次的条件下,该事件实际发生 $k$ 次的概率。
  • 参数:事件发生的平均率 $λ$(λ > 0)。
  • 概率质量函数(PMF):P(X=k) = (λ^k / k!) × e^(-λ)。

2. 连续型概率分布

a. 均匀分布(Uniform Distribution)
  • 定义:在某一区间 [a, b] 内所有值出现的概率相等的概率分布
  • 参数:区间的下限 $a$ 和上限 $b$(a < b)。
  • 概率密度函数(PDF):f(x) = 1 / (b - a)(当 a ≤ x ≤ b 时);否则 f(x) = 0。
b. 正态分布(Normal Distribution)/高斯分布(Gaussian Distribution)
  • 定义:最常见的连续概率分布之一,许多自然现象都近似服从正态分布。
  • 参数:均值 $μ$ 和标准差 $σ$(σ > 0)。
  • 概率密度函数(PDF):f(x) = (1 / (√(2π)σ)) × e[-(x-μ)2 / (2σ^2)]。
c. 指数分布(Exponential Distribution)
  • 定义:描述两个相继发生的事件之间的时间间隔的概率分布,常用于可靠性理论和排队论。
  • 参数:率参数 $λ$(λ > 0),与泊松分布的 $λ$ 相关,但意义不同。
  • 概率密度函数(PDF):f(x) = λe^(-λx)(当 x ≥ 0 时);否则 f(x) = 0。

3. 其他重要分布

a. 卡方分布(Chi-Squared Distribution)
  • 定义:与正态分布的样本方差有关的概率分布,常用于假设检验。
  • 参数:自由度 $ν$(ν 为正整数)。
b. t分布(Student’s t-Distribution)
  • 定义:在小样本情况下估计总体均值的统计量的分布,常用于假设检验。
  • 参数:自由度 $ν$(ν 为正整数)。
c. F分布(F-Distribution)
  • 定义:两个独立的卡方分布变量的比率的分布,常用于方差分析。
  • 参数:分子自由度 $ν_1$ 和分母自由度 $ν_2$(两者均为正整数)。

http://www.ppmy.cn/ops/169786.html

相关文章

C++学习笔记(二十六)——deque

一、std::deque &#xff08;1&#xff09;deque与其适用场景 std::deque&#xff08;双端队列&#xff0c;double-ended queue&#xff09;是 C STL&#xff08;标准模板库&#xff09;中的序列容器&#xff0c;类似于 std::vector&#xff0c;但支持在两端高效地插入和删除…

HDFS相关的面试题

以下是150道HDFS相关的面试题&#xff0c;涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面&#xff0c;希望对你有所帮助。 HDFS基本…

C语言简介

C语言是一种通用的、过程式的编程语言&#xff0c;由Dennis Ritchie在20世纪70年代初于贝尔实验室开发。它最初是为UNIX操作系统设计的&#xff0c;但后来因其高效、灵活和可移植性强的特点&#xff0c;成为了一种广泛使用的编程语言。C语言对许多现代编程语言&#xff08;如C、…

【Hbase】查看所有表

在 HBase 中&#xff0c;查看所有表时&#xff0c;通常不需要指定命名空间&#xff0c;除非有特殊需求或配置。以下是一些具体情况&#xff1a; 默认情况下 • HBase Shell&#xff1a;使用list命令时&#xff0c;默认会列出所有命名空间中的所有表&#xff0c;而不仅仅是默认…

struts1+struts2项目兼容升级到了spring boot 2.7

原项目比较复杂&#xff0c;集成了各种框架&#xff08;struts1 struts2 spring3等&#xff09;&#xff0c;趁工作之余练练手&#xff0c;学习一下springboot。大概花了一周时间才调通。 一、调整jar版本&#xff0c;寻找合适的版本。 第一步、首先原项目JDK6&#xff0c;要…

学习记录-Ajax-自封装axios函数

目录 自封装axios函数封装axios函数实现步骤1. 准备阶段2. 实现无参get请求3.实现有参get请求4. 实现post请求 完整实例代码 自封装axios函数 封装axios函数实现步骤 1. 准备阶段 理解axios函数的底层原理&#xff0c;包括Promise,XMLHttpRequest等概念 XMLHttpRequest工作…

C#中迭代器和IEnumerator 接口和IEnumerable 接口的区别和作用

在C#里&#xff0c;迭代器、IEnumerator 接口以及 IEnumerable 接口都和集合遍历相关&#xff0c;不过它们的作用和使用场景存在差异。下面为你详细介绍&#xff1a; 1. IEnumerable 接口 作用&#xff1a;IEnumerable 接口用于表明一个类或结构可以被迭代。实现了 IEnumerab…

Milvus vs. ElasticSearch:向量库检索性能测试

目录 1. 构建检索库2. 测试条件3. 测试结果4. 性能分析5. 结论 1. 构建检索库 构建通用场景库总计约2万张。构建车辆数据库总计约12万张。构建公共数据库&#xff0c;包括Flickr30k、COCO、nlvr2、vqa等数据集约43万张。 2. 测试条件 环境说明&#xff1a;分别单机部署Milvu…