非参数统计:两样本和多样本的Brown-Mood中位数检验;Wilcoxon(Mann-Whitney)秩和检验及有关置信区间;Kruskal-Wallis秩和检验

news/2024/11/14 10:54:04/

目录

两样本和多样本的Brown-Mood中位数检验

例3.1我国两个地区一些(分别为17个和15个)城镇职工的工资(元):

Wilcoxon(Mann-Whitney)秩和检验及有关置信区间

例3.1我国两个地区一些(分别为17个和15个)城镇职工的工资(元):

Kruskal-Wallis秩和检验

例4.1在一项健康实验中,三人组有三种生活方式,他们的减肥效果如下表:


  • 两样本和多样本的Brown-Mood中位数检验

定义:零假设:H0:Mx=My,备择假设:H1:Mx<My.

如果H0成立,两样本混合中位数Mxy可以均匀的分开X和Y两个样本,检验关注A的数值,A的意义是样本X混合中位数右侧的个数,如果A很大,则表示样本X的中位数明显大于样本Y的;如果A很小,则表示样本Y的中位数明显大于样本X的。

例3.1我国两个地区一些(分别为17个和15个)城镇职工的工资(元):

地区1:6864 7304 7477 7779 7895 8348 8461 9553 9919 10073 10270 11581 13472 13600 13962 15019 17244

地区2:10276 10533 10633 10837 11209 11393 11864 12040 12642 12675 13199 13683 14049 14061 16079

人们想要知道这两个地区平均城镇职工工资的中位数是否一样.

答:由题里的数据可制作下图:

箱线图从左到右依次代表地区1,地区2和混合样本的数据

令地区1的样本数据中位数为Mx,地区2的为My,混合样本数据的中位数为Mxy.

零假设:H0:Mx=My,备择假设:H1:Mx<My.

如果H0成立,则混合样本的中位数Mxy在地区1、地区2的两个样本中,大于或小于Mxy应该大体一样。

由数据算得Mxy=11301,用两样本数据和Mxy比较后得到下表1:

地区1(X)

地区二(Y)

总和

大于Mxy的数目

a=6

b=10

t=16

小于Mxy的数目

m-a=11

n-b=5

N-t=16

总和

m=17

n=15

N=32

令A表示列表中a的取值,在m,n和t固定时,A的分布在H0下的超几何分布(m<k)为:

P(A=k)=mknt-km+nt

Brown-Mood中位数检验的基本内容(表2):

零假设:H0

备择假设:H1

检验统计量

P

H0:Mx=My

H1:Mx<My

A

P(X≥a)

H0:Mx=My

H1:Mx>My

A

P(X≤a)

H0:Mx=My

H1:Mx≠My

A

2min(P(X≥a),P(X≤a))

由表1数据可知,p值为P(X≤a)=P(X≤6)=0.07780674(由r算得),根据这个p值,按照显著性水平0.05,无法拒绝原假设。也就是两个地区平均城镇职工工资的中位数是一样的。

以此类推,可以求出下表3:

P(X≥6)

0.9221933

P(X≤6)

0.07780674

2min(P(X≥6),P(X≤6))

0.1556135

在零假设下,在大样本时,可以从超几何分布的均值和标准差的表达式来得到正态近似统计量为:

Z=A±0.5-mt/Nmnt(N-t)/N3~N(0,1)

对于双边备则检验(H1:Mx≠My),在大样本情况下,可以用检验统计量

K=2a-m2(m+n)mn

它近似服从自由度为1的卡方分布,当K=3.137255,p值为0.0765225.

由于0.0765225>0.05所以我们有没有充分理由拒绝H0,即不能说A组学生比B组学生算得更快。

R代码:

x=c(6864,7304,7477,7779,7895,8348,8461,9553,9919,10073,10270,11581,13472,13600,13962,15019,17244)y=c(10276,10533,10633,10837,11209,11393,11864,12040,12642,12675,13199,13683,14049,14061,16079)z=c(6864,7304,7477,7779,7895,8348,8461,9553,9919,10073,10270,11581,13472,13600,13962,15019,17244,10276,10533,10633,10837,11209,11393,11864,12040,12642,12675,13199,13683,14049,14061,16079)boxplot(x,y,z)median(z, na.rm = FALSE)a=6b=10m=17n=15phyper(a,m,n,a+b)1-phyper(a,m,n,a+b)1-phyper(a-1,m,n,(m+n)-(a+b))2*phyper(a,m,n,a+b)pnorm((a+0.5-m*(a+b)/(m+n))/sqrt(m*n*(a+b)*(m+n-(a+b))/(m+n)^3))
  • Wilcoxon(Mann-Whitney)秩和检验及有关置信区间

定义:Wilcoxon(Mann-Whitney)秩和检验是Brown-Mood中位数检验的升级版,假设两个总体分布有类似的形状,不假定对称。

X1,X2,…,Xm~F(X-μ1);Y1,Y2,…,Yn~(Y-μ2)

零假设:H0:μ1=μ2,备择假设:H1:μ1≠μ2

例3.1我国两个地区一些(分别为17个和15个)城镇职工的工资(元):

地区1:6864 7304 7477 7779 7895 8348 8461 9553 9919 10073 10270 11581 13472 13600 13962 15019 17244

地区2:10276 10533 10633 10837 11209 11393 11864 12040 12642 12675 13199 13683 14049 14061 16079

人们想要知道这两个地区平均城镇职工工资的中位数是否一样.

答:令地区1的样本数据中位数为Mx,地区2的为My,混合样本数据的中位数为Mxy.

零假设:H0:Mx=My,备择假设:H1:Mx<My.

下面是两个地区混合样本的秩:

X

6864

7304

7477

7779

7895

8348

8461

9553

9919

1

2

3

4

5

6

7

8

9

X

10073

10270

11581

13472

13600

13962

15019

17244

10

11

18

24

25

27

30

32

Y

10276

10533

10633

10837

11209

11393

11864

12040

12642

12

13

14

15

16

17

19

20

21

Y

12675

13199

13683

14049

14061

16079

22

23

26

28

29

31

可以得出Wy=306,Wx=222,Wxy=186,Wyx=69.

对于备则检验H1:Mx<My,得到p值为0.0135。因此,对于高于0.015的置信区间水平都可以拒绝零假设。

对于双边备择假设H1:Mx≠My,得到p值为0.0270,是上面单边检验的两倍;若用连续修正的正态近似,得到p值为0.0285,;若不加连续改正量,得到p值为0.0272.

对于备择假设H1:Mx<My,若用连续修正的正态近似,得到p值为0.0143,;若不加连续改正量,得到p值为0.0136.

由于以上计算的所有p值,均小于0.05,所以我们有充分的理由拒绝原假设,即地区1的中位数比地区2小。

Mx-My的点估计和区间估计:

由上述代码运行结果知,Mx-My的点估计为-2479.

由上述代码运行结果知,Mx-My的(1-α)置信区间为(-3916,-263)。

R代码:

x=c(6864,7304,7477,7779,7895,8348,8461,9553,9919,10073,10270,11581,13472,13600,13962,15019,17244)y=c(10276,10533,10633,10837,11209,11393,11864,12040,12642,12675,13199,13683,14049,14061,16079)m=length(x);n=length(y);m;n;Wxy=sum(outer(y,x,"-")>0);WxyWyx=sum(outer(x,y,"-")>0);Wyxpwilcox(69,m,n)wilcox.test(x,y)wilcox.test(x,y,exact=F)wilcox.test(x,y,exact=F,cor=F)wilcox.test(x,y,exact=F,alt="less")wilcox.test(x,y,exact=F,alt="less",cor=F)median(outer(x,y,"-"))D=sort(as.vector(outer(x,y,"-")))qwilcox(0.025,m,n)D[76]D[m*n+1-76]
  • Kruskal-Wallis秩和检验

定义:Kruskal-Wallis秩和检验根据所有数据从小到大排序,算出每个数据的秩。其中Ri为每组的秩和,ni为每组的样本个数。当每组样本中的观察数目有5个或5个以上,则样本统计量 KWC 的分布与自由度为k-1的卡方分布非常接近。因此,KW统计量可利用卡方分布进行检验。

KW=组间平方和/全体样本的秩方差

如果样本中存在结值(数据相同秩值的个数),则校正系数C=1-Σ(τi^3-τi)/n^3-n,其中τi等于第j个结值的个数,调整后的KWc=KW/C.

Kruskal-Wallis统计量:

H=12N(N-1)i=1kni(Ri-R)2=12N(N-1)i=1kRi2ni-3(N+1)

例4.1在一项健康实验中,三人组有三种生活方式,他们的减肥效果如下表:

生活方式

1

2

3

一个月后减少的重量(单位500g)

3.7

7.3

9.0

3.7

5.2

4.9

3.0

5.3

7.1

3.9

5.7

8.3

2.7

6.5

ni=

5

5

4

人们想知道从这个数据能否得出他们的减肥效果(位置参数)是一样的。

答:假定k个样本有相似的连续正态分布,而且所有的观测值在样本内和样本之间是独立的,我们假定k个独立样本有连续的分布函数F1,…, Fk.我们设

零假设H0:F1(X)=…=Fk(X)=F(X);备择假设H1:Fi(X)=F(X-θi),i=1,…,k

这里F是某连续分布函数,而且这些位置参数θi并不全部相同。

假定有k个样本,各样本的样本量为ni,i=1,…,k.那么,观测值可以写成下面的线性模型:xij=μ+θi+εij,j=1,…, ni及 i=1,…,k,误差是独立同分布的.

我们要检验的是H0: θ1=θ2=…=θk等价于Ha:H0的诸等式中至少有一个不成立。

由题中数据所画箱线图如下:

由上述代码运行结果知p=0.00895<0.05,故我们有充分理由拒绝H0,即他们的减肥效果,即位置参数是不一样的。

R代码:

a=c(3.7,3.7,3.0,3.9,2.7)b=c(7.3,5.2,5.3,5.7,6.5)c=c(9.0,4.9,7.1,8.3)boxplot(a,b,c)m1=length(a)m2=length(b)m3=length(c)m<-m1+m2+m3library(fBasics)d=c(a,b,c)e=c(1,1,1,1,1,2,2,2,2,2,3,3,3,3)kruskal.test(d,e)


http://www.ppmy.cn/news/376391.html

相关文章

Mann-whitney 检验算法学习

Mann-whitney 检验算法 1、Mann-whitney 算法简介 曼-惠特尼U检验又称“曼-惠特尼秩和检验”&#xff0c;是由H.B.Mann和D.R.Whitney于1947年提出的 [1] 。它假设两个样本分别来自除了总体均值以外完全相同的两个总体&#xff0c;目的是检验这两个总体的均值是否有显著的差别…

Mann-Whitney检验(曼-惠特尼秩和检验)及matlab代码

目录 1、Mann-whitney 算法简介 2、定义 3、Mann-whitney 算法步骤 4、matlab函数 5、实例及matlab代码 独立双样本的非参数检验&#xff0c;不满足正态分布的小样本&#xff0c;秩和检验 X Y样本数量可以不相等 参考链接&#xff1a;https://blog.csdn.net/qq_34734303/a…

R假设检验之Mann-Kendall趋势检验法(Mann-Kendall Trend Test)

R假设检验之Mann-Kendall趋势检验法(Mann-Kendall Trend Test) 世界气象组织推荐并已广泛应用的Mann-Kendall非参数统计方法,能有效区分某一自然过程是处于自然波动还是存在确定的变化趋势。对于非正态分布的水文气象数据,Mann-Kendall秩次相关检验具有更加突出的适用性…

非参数统计的Python实现—— Mann-Whitney 秩和检验

概念 Mann-Whitney 秩和检验&#xff0c;也被称为 Mann-Whitney-U 检验。在笔者另一篇博客 ( https://blog.csdn.net/Raider_zreo/article/details/101380293 ) 中已经对 Wilcoxon 秩和检验有过介绍&#xff0c;事实上&#xff0c;Wilcoxon 统计量与 Mann-Whitney 统计量是等价…

红黑树的插入和删除

红黑树&#xff08;C&#xff09; 红黑树简述红黑树的概念红黑树的性质红黑树结点定义 一&#xff0c;红黑树的插入插入调整插入代码 二&#xff0c;红黑树的验证三&#xff0c;红黑树的删除待删除的结点只有一个子树删除结点颜色为红色删除结点颜色为黑色 删除的结点为叶子节点…

Manve

Manve 1.WHY&#xff1f; ​ Maven 并不是直接用来辅助编码的&#xff0c;它战斗的岗位并不是以上各层。所以我们有必要通过企业开发中的实际需求来看一看哪些方面是我们现有技术的不足。 2.WHAT? 2.1Maven 简介 Maven 是 Apache 软件基金会组织维护的一款自动化构建工具…

Nmon

Nmon 工具是 IBM 提供的免费的在AIX与各种Linux操作系统上广泛使用的监控与分析工具。该工具可将服务器的系统资源耗用情况收集起来并输出一个特定的文件,并可利用 excel 分析工具nmonanalyser进行数据的统计分析。并且&#xff0c;nmon运行不会占用过多的系统资源&#xff0c;…

GEE:对NDVI的时间序列使用Sen+Mann-Kendall(MK)趋势检验

文章目录 Sen+MK趋势分析结果展示Sen_slopeZ值应用案例Sen+MK趋势分析 Sen 斜率估计用于计算趋势值,通常与MK非参数检验结合使用。即首先计算Sen趋势值,然后使用MK方法判断趋势显著性。 本文使用非参数 Mann-Kendall 检验检测图像中是否存在递增或递减趋势和 Sen 斜率以量化…