【小白学机器学习31】 大数定律,中心极限定理,标准正态分布与概率的使用

news/2024/11/2 13:21:00/

目录

1 正态分布相关的2个相关定理

1.1 大数定律:(证明了)分布的稳定性

1.2 中心极限定理:(证明了)分布的收敛性

2 使用标准差和概率的2种思路

2.1 标准正态分布的曲线

2.2 两种使用方式

2.3 第1种:按整数倍标准差δ 作为标准使用

2.3.1   比如3δ原则 /6西格玛管理

2.3.2 还有LCL, UCL管理

2.2 第2种:按比较整的概率如95%对应的标准差使用

3 应用举例1

4 应用举例2:造成误差的原因不是样本数占总体的比例,而是样本的绝对数量!


关于正态分布,具体应用

1 正态分布相关的2个相关定理

1.1 大数定律:(证明了)分布的稳定性

  • 大量试验结果稳定性
  • 频率的稳定性,
  • 伯努利大数定律:样本数多n变大,某个事件发生的频度 =单次试验内发生的概率
  • 泊松大数定律:   样本数多n变大,样本平均值估计 =总体平均值

1.2 中心极限定理:(证明了)分布的收敛性

  • 分布的收敛性
  • 随机变量(如多次取样的均值)会逐渐符合某一分布:正态分布
  • 二项分布的极限分布是正态分布
  • 无论一组变量独立同分布,不管本身符合什么分布,但是有u和 δ^2。这组变量的样本平均数(多次抽样的平均数分分布)就服从 u和 δ^2/N的正态分布

2 使用标准差和概率的2种思路

2.1 标准正态分布的曲线

  • 标准正态分布曲线,曲线下的面积可以表示概率
  • 曲线上的每个点,都是Xi值的标准值
  • 标准值=xi-u/sd

2.2 两种使用方式

  • 我们根据不同的需要,确定了我们使用 2δ 还是2.58δ
  • 如果有可能,我们使用其他标准的δ 都有可能,关键是根据需求来
  1. 当我们需要以整数δ为标准来看概率时,选择 δ,2δ,3δ等
  2. 当我们需要以比较整的概率时比如95%,99%时,比如做假设检验的适合,选择 1.96δ,2.58δ等

2.3 第1种:按整数倍标准差δ 作为标准使用

按照 -3δ,-2δ,-1δ,1δ,2δ,3δ 这样的整数倍δ来划分区间

  • 3δ,49.8%,99.99%
  • 2.58δ,49.5%,99%
  • 2δ,47.7%,95.45%
  • 1.96δ,47.5%,95%
  • δ,34.1%,68.5%
  • -δ,34.1%,68.5%
  • -1.96δ,47.5%,95%
  • -2δ,47.7%,95.45%
  • -2.58δ,49.5%,99%
  • -3δ,49.8%,99.99%

2.3.1   比如3δ原则 /6西格玛管理

  • 标准正态分布与概率,3δ原则
  • 不同的标准差δ对应不同的概率
  • 按照几倍δ,去找对应的概率,68.5%,95.45%,99.99%等


2.3.2 还有LCL, UCL管理

  • LCL“Low control limit  一般对应-3δ
  • UCL:UP control limit    一般对应+3δ

2.2 第2种:按比较整的概率如95%对应的标准差使用

按概率 90% 95% 99%等比较整的概率去划分标准正态分布的区间

  • 3δ,49.8%,99.99%
  • 2.58δ,49.5%,99%
  • 2δ,47.7%,95.45%
  • 1.96δ,47.5%,95%
  • δ,34.1%,68.5%
  • -δ,34.1%,68.5%
  • -1.96δ,47.5%,95%
  • -2δ,47.7%,95.45%
  • -2.58δ,49.5%,99%
  • -3δ,49.8%,99.99%


 

3 应用举例1

  • 使用样本均值 + 总体的标准差,去估计 总体均值的范围
  • 使用样本均值 + 总体的标准差(样本标准差),去估计 总体均值的范围

我们如果只有1个样本,少数样本,虽然不能直接推算总体样本,但是可以这么估计范围。
比如在95%区间内
总体均值-1.96*标准差/sqrt(n) <= 样本平均值<=总体均值-1.96*标准差/sqrt(n)
因此
总体平均值<=样本平均值+1.96*标准差/sqrt(n)
总体平均值>=样本平均值-1.96*标准差/sqrt(n)

当样本数量n一直增大后
总体平均值<=样本平均值+1.96*标准差/sqrt(n)=样本平均值+0
总体平均值>=样本平均值-1.96*标准差/sqrt(n) =样本平均值-0
总体平均值=样本平均值

如果范围从95%→99%后,形象的看为什么置信区间变大了
总体平均值<=样本平均值+2.58 *标准差/sqrt(n)
总体平均值>=样本平均值-2.58 *标准差/sqrt(n)
范围变大,95%-99%,也就是置信区间变大了。而拒绝的空间α就很小了。

这个计算实际存在理论上的问题。但是实际上我们容易得到样本均值,但很难得到总体标准差,而如果用样本的标准差去替代总体的,也是个办法,因为样本方差的分母从N改为(N-1)=总体方差,所以还是可以行得通的,但是肯定是有误差的。

4 应用举例2:造成误差的原因​​​​​​​不是样本数占总体的比例,而是样本的绝对数量!

  • 一个更奇怪的公式
  • 95%时
  • 样本p-1.96*sqrt((N-n)/(N-1)*p*(1-p)/n) <总体P< 样本p+1.96*sqrt((N-n)/(N-1)*p*(1-p)/n)
  • 而(N-n)/(N-1) 样本数量n比较小时,趋近于1,故意忽略
  • 样本p-1.96*sqrt(p*(1-p)/n) <总体P< 样本p+1.96*sqrt(p*(1-p)/n)

  • 造成误差的原因
  • 不是样本数占总体的比例,而是样本的绝对数量!
  • 反常识!


http://www.ppmy.cn/news/1543875.html

相关文章

printf实现彩色输出, ANSI 转义序列详解

ANSI 转义序列是一种在终端中改变文本颜色和其他属性的方法。基本格式为 \e[<code>m&#xff0c;其中 <code> 是一系列数字&#xff0c;用于表示不同的颜色和属性。 基本格式 \e[<code>m这里的 <code> 可以是单个或多个数字&#xff0c;用分号 ; 分隔…

服务器被黑客攻击:如何查看攻击流量

在互联网时代&#xff0c;服务器遭受黑客攻击的风险日益增加。了解如何检测和分析攻击流量对于维护服务器安全至关重要。本文将介绍几种常用的方法和技术&#xff0c;帮助系统管理员快速识别和响应潜在的攻击行为。 一、日志分析 日志文件是追踪服务器活动的第一手资料&#…

AI人工智能电话机器人如何使用效果最好

随着科技的不断进步&#xff0c;人工智能已经成为了我们生活中不可或缺的一部分。AI人工智能电话机器人正是其中的一种形式&#xff0c;可以帮助企业或组织更好地实现电话营销的目标&#xff0c;接下来我们看看ai智能电话机器人怎么使用。 什么是AI人工智能机器人电话&#xf…

一文了解Linux内核I2C子系统,驱动苹果MFI加密芯片

版本 日期 作者 变更表述 1.0 2024/10/27 于忠军 文档创建 背景&#xff1a;由于苹果有一套MFI IAP2的蓝牙私有协议&#xff0c;这个协议是基于BR/EDR的RFCOMM自定义UUID来实现IAP2协议的通信&#xff0c;中间会牵扯到苹果加密芯片的I2C读取&#xff0c;所以我们借此机…

GPS、GNSS与RTK

GPS&#xff08;Global Positioning System&#xff09; 全球卫星定位系统&#xff0c;一种以空中卫星为基础的高精度无线电导航的定位系统。 RTK&#xff08;Real - time kinematic&#xff09; 载波相位差分技术&#xff0c;实时处理两个测量站相位观测量的差分方法&#…

从零开始学AIStarter:创作者模式全攻略【AI工作流、数字人、大模型、对话、设计...】

在数字化时代&#xff0c;项目管理工具成为了提高工作效率、促进团队协作不可或缺的一部分。对于创作者来说&#xff0c;选择一个既能满足个性化需求又能提供高效管理支持的平台尤为重要。AIStarter项目管理平台正是这样一款专为创意人士设计的强大工具&#xff0c;它不仅提供了…

GPT-4V 是什么?

GPT-4V 是一种能够“看图说话”的人工智能。传统的聊天机器人只能理解文字&#xff0c;而 GPT-4V 不仅能理解文字&#xff0c;还能看图&#xff0c;并回答跟图片相关的问题。 用简单的例子解释&#xff1a; 假设你给 GPT-4V 发一张图片&#xff0c;它能描述出图片里有什么&am…

强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法

来源 | 机器之心 在当今的大模型时代&#xff0c;以 RLHF 为代表的强化学习方法具有无可替代的重要性&#xff0c;甚至成为了 OpenAI ο1 等模型实现强大推理能力的关键。 但这些强化学习方法仍有改进空间。近日&#xff0c;强化学习之父、阿尔伯塔大学教授 Richard Sutton 的…