【统计的思想】假设检验(一)

news/2025/2/4 15:12:47/

假设检验是统计学里的重要方法,同时也是一种“在理想与现实之间观察求索”的测试活动。假设检验从概率的角度去考察理想与现实之间的关系,籍此来缓解测试可信性问题。

我们先来看一个例子。民航旅客服务系统,简称PSS系统,有一种业务叫换飞机,如果一个航班,原定执飞的飞机出了故障,就需要换飞机。但是可能换不到原来机型的飞机,比如原来是一个空客320,只能换到一个波音737,这就比较麻烦了,系统需要做很多事,要更换航班布局、所有旅客要重新安排座位,等等。用的时间会比较长。

假设PSS系统的一个期望是“换飞机的平均处理时长不超过160秒”。这是一个关于系统性能的期望。测试的时候,我们把换飞机的用例重复执行了6次,发现每次执行的系统处理时长都不一样,平均值是170秒。

那么我们的测试结论应该是什么?能断定系统性能不符合预期吗?显然不能,因为测试结果是一个随机变量,我们只测了6次,如果再多测几次,平均值可能就低于160秒了。

切比雪夫大数定律告诉我们,如果测试的次数足够多,处理时长的算数平均值就会趋近于数学期望,也就是真正的“平均处理时长”。但是我们的资源是有限的,只够我们做6次测试,所以结果一定有偏差,这就是抽样误差。而且,测试的次数越少,测试结果的方差越大,抽样误差也就越大。如果直接拿这样的结果去下测试结论,一定是有偏颇的。这就是测试的五个基本问题之一——测试可信性问题的典型表现。

怎么办呢?还是要依靠统计的思想。如果我们能知道,“6次测试的均值是170秒”,这样一个结果发生的概率是多少,我们就能更准确地判断,系统性能是不是符合预期,或者说,有多大可能符合预期,测试结论就能更靠谱一些。

那么,怎么才能知道170秒这个结果发生的概率是多少呢?这就是抽样分布问题。抽样分布研究的是:从总体中抽取的样本,应该具有什么样的统计特征,跟总体的统计特征有什么关系。这是统计学里的一个重要课题。

比方说,桶里面有4个球,重量分别是2/3/3/4公斤。总体的数学期望是3,方差是0.5,标准差是0.707。我们用放回抽样的方式,从桶里抽2个球当样本,也就是先抽一个,看看是多重的,放回桶里,再抽下一个。可能的抽样结果一共有这样16种:

每种结果出现的可能性是相同的,都是1/16。这样我们就可以算出每种抽样结果的样本均值,以及所有16种样本均值的数学期望和方差。可以看到,样本均值的数学期望和总体的数学期望一样,都是3;样本均值的方差是0.25,也就是总体方差除以样本量2。

如果增加样本量,比如抽4个球,我们会发现结论是相同的,样本均值的数学期望还是跟总体数学期望一样;样本均值的方差还是等于“总体方差除以样本量”——看起来是有规律的。

接下来我们看样本均值的概率分布。来算一下各种不同的样本均值出现的概率,比如16种抽样结果里,样本均值是2.0的情况只出现了一次,所以2.0的概率是1/16;2.5出现了4次,所以2.5的概率是1/4。算出各个样本均值的概率之后,就可以画出样本均值的概率分布曲线了:

看得出来,已经有点像正态分布了。如果样本量是4,样本均值的概率分布曲线是下面这个样子,就更加接近正态分布:

从这个例子,我们可以引出抽样分布的一组基本规律

  1. 样本量越大,样本均值越趋近于服从正态分布。

  2. 样本均值的数学期望与总体的数学期望相同。

  3. 样本均值的方差等于总体方差除以样本量。

到这里,我们就完成了假设检验的理论储备。那假设检验具体是怎么做的呢?我们还是用换飞机的例子来说明。

① 首先第一步是建立假设。我们先假设换飞机的平均处理时长是符合预期的,最多就是160秒。也就是说,总体均值是160。这个假设叫零假设。如果零假设成立,为什么实际测试结果均值会是170秒呢?因为这个170秒是“样本均值”,跟“总体均值”之间有抽样误差。但是根据抽样分布规律,样本均值服从正态分布,有99.7%的概率会落在160附近6倍标准差的范围内,所以这个误差一般不会特别大,如果特别大就说明零假设有问题;

② 那怎么才算特别大呢?我们需要设定一个阈值,也叫显著水平,意思是“理想和现实的差异是不是足够显著”,一般取一个比较小的值,比如0.05。如果一个抽样误差出现的概率比这个显著水平还要低,那这个抽样误差就算“特别大”了,我们就可以认为,出现这种程度的误差是一个小概率事件,在一次测试里面是不可能发生的。这就是小概率事件的实际不可能原理;

③ 第三步,在零假设的基础上,计算测试结果的发生概率。我们做了6次性能测试,相当于抽取了6个样本,样本均值是170秒。按照抽样分布规律,样本均值近似服从正态分布,这个正态分布的数学期望跟总体一样是160。另外假定总体方差已知,是144,那么样本均值的方差就是144/6=24。因此,样本均值的概率分布应该是:\bar{x}\sim N(\mu_{0},\frac{\sigma^{2}}{n})=N(160,24)

在这样一个概率分布上,实际结果是170,也就是说,比均值160高出了10以上。这个结果的概率算下来是:P(T)=1-\Phi(\frac{170-60}{\sqrt{24}} )=0.0207

④ 最后,把这个概率跟显著水平0.05作比较,发现比显著水平要小,说明测试结果是一个小概率事件,但是的的确确发生了。也就是说,从零假设出发推出了矛盾,当然这个矛盾是统计意义上的矛盾。这时候,我们就可以否定零假设,所以最终的测试结论是,在显著水平0.05的意义上,换飞机的平均处理时长不符合预期,超过了160秒。

把假设检验的过程总结成一句话,就是:首先假设理想和现实相符,然后根据抽样分布规律,计算测试结果出现的概率,如果概率比显著水平低,就否定零假设,如果概率比显著水平高,就接受零假设。


http://www.ppmy.cn/news/1564615.html

相关文章

Debian终端高亮(显示不同颜色)

起因 Debian终端与CentOS不一样,CentOS终端默认自带高亮显示,不同文件类型的文件显示颜色不一样,而Debian默认都显示为一样的颜色。 解决方法 为了debian终端显示有颜色有如下方法: 方法一:单次有效 ls --colorau…

“深入浅出”系列之数通篇:(2)交换机的三种连接方式:级联、堆叠和集群

因为之前实习的时候做过网络工程师,所以今天也来这里说一下有关交换机的内容。交换机的连接方式大家应该都知道,一共有三种,分别是:级联、堆叠和集群。 交换机的级联技术一般用来实现多台交换机之间的互相连接; 堆叠…

基于SpringBoot + Mybatis Plus + SaToken + Thymeleaf + Layui的后台管理系统

介绍 基于SpringBoot Mybatis Plus SaToken Thymeleaf Layui的后台管理系统 接入Sa-Token,支持菜单权限 数据库支持 MySQL、Oracle、sqlServer 等主流数据库 提供代码生成器,基本增删改查无需编写,可快速完成开发任务。 后台接口RESTful…

Markdown学习笔记(1)

一、Markdown预览 点击“显示并运行命令 >” 输入“Markdown”出现“打开侧边预览”选项可以预览效果。 二、Markdown 标题 Markdown 标题有两种格式。 1.和- 一级标题二级标题 -2.# # 一级标题 ## 二级标题 ### 三级标题 #### 四级标题 ##### 五级标题 ###### 六级标题…

如何控制爬虫的速度来避免被屏蔽

在进行网络爬虫开发时,合理控制爬虫速度是确保爬虫可持续运行的关键。过快的爬取速度可能会触发目标网站的防护机制,导致 IP 被封禁或服务请求被阻断。以下是一些有效的方法来控制爬虫速度,从而避免被屏蔽。 一、设置请求头信息 通过设置合适…

卷积加法自注意力CASAtt详解及代码复现

自注意力机制简介 自注意力机制(Self-Attention)是一种 特殊的注意力机制 ,允许模型在处理序列数据时考虑每个元素与其他所有元素的关系。这种机制通过计算查询、键和值向量,帮助模型更好地理解序列中的上下文信息。自注意力机制的核心在于计算每个元素的权重,反映元素之…

Nginx三种不同类型的虚拟主机(基于域名、IP 和端口)

🏡作者主页:点击! Nginx-从零开始的服务器之旅专栏:点击! 🐧Linux高级管理防护和群集专栏:点击! ⏰️创作时间:2025年1月15日13点14分 目录 1. 基于域名的虚拟主机 …

指定 PG 启动端口

文章目录 修改配置文件通过 postmaster 或者 postgres 指定方法示例 通过 pg_ctl 参数执行方法示例 修改配置文件 echo "port5555" >> $PGDATA/postgresql.auto.conf su - postgres -c "pg_ctl start -D $PGDATA" su - postgres -c "pg_ctl st…