机器学习数学基础:28.卡方检验

news/2025/2/21 14:43:36/

卡方检验教程

一、引言

在统计学的广阔领域中,卡方检验(Chi - Square Test)宛如一把锐利的手术刀,能够精准剖析数据背后隐藏的关系与模式。它主要用于两大核心任务:一是深入分析两个及两个以上分类变量之间错综复杂的关联性,二是严格检验观测数据与既定理论分布的契合程度。

从本质上讲,卡方检验基于卡方分布展开严谨的统计推断。在科学研究的前沿阵地,它助力科研人员验证各种理论假设;在市场调研的商业战场,它帮助企业洞察消费者行为与市场趋势;在医学诊断的生命赛道,它为疾病的诊断与研究提供关键的数据支持;在社会科学的人文领域,它推动着对社会现象和人类行为的深入理解。

二、卡方检验的基本原理

卡方检验的核心奥秘在于对观测值(Observed Values)与期望值(Expected Values)之间差异程度的精妙比较,而这种差异的衡量则依赖于卡方统计量(Chi - Square Statistic)。其计算公式为: χ 2 = ∑ ( O − E ) 2 E \chi^{2}\ =\sum\frac{(O - E)^{2}}{E} χ2 =E(OE)2

其中, O O O代表观测值,它是我们在实际研究或调查中所获取的真实数据。 E E E代表期望值,是在特定假设或理论模型下,我们预期会得到的数据。 ∑ \sum 表示对所有类别或单元格进行求和运算。

当观测值与期望值极为接近时,意味着实际情况与理论预期高度相符,此时计算得到的卡方值就会极小。相反,若两者之间存在较大差异,卡方值则会显著增大。当卡方值增大到超过预先设定的临界值时,我们就有充分的理由拒绝原假设,从而认定观测数据与预期情况存在显著差异,即可能存在某种潜在的关联或不符合假设的分布。

三、卡方检验的分类及应用场景

(一)拟合优度检验

  1. 目的:拟合优度检验的使命是对一组观测数据是否符合某种特定的理论分布进行严格的检验。这些理论分布丰富多样,包括正态分布、均匀分布、二项分布等。它就像是一把精准的标尺,用于衡量实际数据与理论模型之间的契合度。
  2. 案例
    • 在遗传学的经典实验中,孟德尔遗传定律犹如一盏明灯,照亮了我们对遗传规律的认知之路。以高茎与矮茎豌豆杂交实验为例,根据孟德尔遗传定律的精准预测,第二代杂种(F₂)中高茎与矮茎的比例应为 3:1。假设我们精心实际种植了 1000 株 F₂ 豌豆,经过细致的观测,发现高茎有 760 株,矮茎有 240 株。此时,卡方拟合优度检验就成为我们验证实际观测数据是否符合孟德尔定律所预期的 3:1 分布的有力工具。
    • 计算过程:
      • 首先,依据理论比例精确计算期望值。已知总株数为 1000,按照 3:1 的经典比例,高茎的期望值 E 高茎 = 1000 × 3 4 = 750 E_{高茎}\ =1000\times\frac{3}{4}\ =750 E高茎 =1000×43 =750株,矮茎的期望值 E 矮茎 = 1000 × 1 4 = 250 E_{矮茎}\ =1000\times\frac{1}{4}\ =250 E矮茎 =1000×41 =250株。

      • 然后,将观测值与期望值代入卡方统计量公式进行精确计算:
        χ 2 = ( 760 − 750 ) 2 750 + ( 240 − 250 ) 2 250 \chi^{2}\ =\frac{(760 - 750)^{2}}{750}+\frac{(240 - 250)^{2}}{250} χ2 =750(760750)2+250(240250)2
        = 1 0 2 750 + ( − 10 ) 2 250 \ =\frac{10^{2}}{750}+\frac{(-10)^{2}}{250}  =750102+250(10)2
        = 100 750 + 100 250 \ =\frac{100}{750}+\frac{100}{250}  =750100+250100
        = 0.133 + 0.4 = 0.533 \ =0.133 + 0.4 \ = 0.533  =0.133+0.4 =0.533

      • 最后,根据自由度(自由度 \ = 分类数 - 1,这里只有高茎和矮茎两个分类,所以自由度为 2 - 1 \ = 1)和预先选定的显著性水平(如 α = 0.05 \alpha \ = 0.05 α =0.05),仔细查阅卡方分布表,得到对应的临界值。若计算得到的卡方值小于临界值,那么我们就可以接受原假设,即实际观测数据符合孟德尔定律所预期的分布;若大于临界值,则果断拒绝原假设。

(二)独立性检验

  1. 目的:独立性检验旨在精准判断两个分类变量之间是否相互独立,即探究一个变量的取值是否会对另一个变量的取值产生实质性的影响。它帮助我们揭示变量之间潜在的关联关系,为决策提供重要依据。
  2. 案例
    • 在竞争激烈的市场调研中,为了深入研究消费者的性别与购买某种电子产品的偏好之间是否存在微妙的关联,我们精心设计并开展了问卷调查。通过广泛收集,共获取了 500 位消费者的数据,其中男性 200 人,女性 300 人。在购买偏好方面,我们细致地分为喜欢、中立、不喜欢三个类别。调查结果清晰显示,男性中喜欢该电子产品的有 80 人,中立的有 60 人,不喜欢的有 60 人;女性中喜欢的有 120 人,中立的有 100 人,不喜欢的有 80 人。
    • 计算过程:
      • 首先,构建列联表(Contingency Table),将数据进行系统整理:
        |性别|喜欢|中立|不喜欢|总计|
        |:–😐:–😐:–😐:–😐:–😐
        |男性|80|60|60|200|
        |女性|120|100|80|300|
        |总计|200|160|140|500|

      • 然后,依据列联表,按照“行总计×列总计÷表总计”的精确公式计算期望值。例如,男性喜欢的期望值 E 男性喜欢 = 200 × 200 500 = 80 E_{男性喜欢}\ =\frac{200\times200}{500}\ =80 E男性喜欢 =500200×200 =80人。以此类推,逐一计算出所有单元格的期望值。具体计算如下:
        男性中立的期望值 E 男性中立 = 200 × 160 500 = 64 E_{男性中立}\ =\frac{200\times160}{500}\ =64 E男性中立 =500200×160 =64人;
        男性不喜欢的期望值 E 男性不喜欢 = 200 × 140 500 = 56 E_{男性不喜欢}\ =\frac{200\times140}{500}\ =56 E男性不喜欢 =500200×140 =56人;
        女性喜欢的期望值 E 女性喜欢 = 300 × 200 500 = 120 E_{女性喜欢}\ =\frac{300\times200}{500}\ =120 E女性喜欢 =500300×200 =120人;
        女性中立的期望值 E 女性中立 = 300 × 160 500 = 96 E_{女性中立}\ =\frac{300\times160}{500}\ =96 E女性中立 =500300×160 =96人;
        女性不喜欢的期望值 E 女性不喜欢 = 300 × 140 500 = 84 E_{女性不喜欢}\ =\frac{300\times140}{500}\ =84 E女性不喜欢 =500300×140 =84人。

      • 接着,将观测值和期望值代入卡方统计量公式 χ 2 = ∑ ( O − E ) 2 E \chi^{2}\ =\sum\frac{(O - E)^{2}}{E} χ2 =E(OE)2,对列联表中的每个单元格进行严谨计算并求和:
        对于“男性 - 喜欢”单元格: ( 80 − 80 ) 2 80 = 0 \frac{(80 - 80)^{2}}{80}\ =0 80(8080)2 =0
        对于“男性 - 中立”单元格: ( 60 − 64 ) 2 64 = ( − 4 ) 2 64 = 16 64 = 0.25 \frac{(60 - 64)^{2}}{64}\ =\frac{(-4)^{2}}{64}\ =\frac{16}{64}\ =0.25 64(6064)2 =64(4)2 =6416 =0.25
        对于“男性 - 不喜欢”单元格: ( 60 − 56 ) 2 56 = 4 2 56 = 16 56 ≈ 0.286 \frac{(60 - 56)^{2}}{56}\ =\frac{4^{2}}{56}\ =\frac{16}{56}\approx0.286 56(6056)2 =5642 =56160.286
        对于“女性 - 喜欢”单元格: ( 120 − 120 ) 2 120 = 0 \frac{(120 - 120)^{2}}{120}\ =0 120(120120)2 =0
        对于“女性 - 中立”单元格: ( 100 − 96 ) 2 96 = 4 2 96 = 16 96 ≈ 0.167 \frac{(100 - 96)^{2}}{96}\ =\frac{4^{2}}{96}\ =\frac{16}{96}\approx0.167 96(10096)2 =9642 =96160.167
        对于“女性 - 不喜欢”单元格: ( 80 − 84 ) 2 84 = ( − 4 ) 2 84 = 16 84 ≈ 0.190 \frac{(80 - 84)^{2}}{84}\ =\frac{(-4)^{2}}{84}\ =\frac{16}{84}\approx0.190 84(8084)2 =84(4)2 =84160.190
        卡方统计量 χ 2 = 0 + 0.25 + 0.286 + 0 + 0.167 + 0.190 = 0.893 \chi^{2}\ =0 + 0.25 + 0.286 + 0 + 0.167 + 0.190 \ = 0.893 χ2 =0+0.25+0.286+0+0.167+0.190 =0.893

      • 最后,根据自由度(自由度 \ = (行数 - 1)×(列数 - 1),这里行数为 2,列数为 3,所以自由度为 (2 - 1)×(3 - 1)\ =2)和选定的显著性水平(如 α = 0.05 \alpha \ = 0.05 α =0.05),认真查阅卡方分布表,得到临界值为 5.991。若卡方值小于临界值,则接受原假设,即性别与购买偏好相互独立;若大于临界值,则拒绝原假设,表明两者存在关联。在此案例中, 0.893 < 5.991 0.893<5.991 0.8935.991,所以接受原假设,即没有足够证据表明消费者的性别会对其购买该电子产品的偏好产生影响。

四、卡方检验的步骤总结

(一)提出原假设( H 0 H_{0} H0)和备择假设( H 1 H_{1} H1

  1. 拟合优度检验:
    - H 0 H_{0} H0:观测数据符合特定的理论分布。这是我们最初的假设,基于对理论模型的信任和预期。
    - H 1 H_{1} H1:观测数据不符合特定的理论分布。当我们有理由怀疑实际数据与理论模型存在偏差时,备择假设就成为了我们进一步探究的方向。
  2. 独立性检验:
    - H 0 H_{0} H0:两个分类变量相互独立。即认为两个变量之间不存在任何关联,它们的取值是相互独立、互不影响的。
    - H 1 H_{1} H1:两个分类变量不相互独立。当我们猜测两个变量之间可能存在某种潜在关系时,备择假设引导我们去寻找证据来支持这一猜测。

(二)计算期望值

根据不同的检验目的和数据情况,采用相应的科学方法计算期望值。在拟合优度检验中,我们依据理论分布的特征和参数,精确计算出每个类别或区间的期望值。而在独立性检验中,则通过列联表,巧妙利用行总计、列总计和表总计,按照特定公式计算出每个单元格的期望值。

(三)计算卡方统计量

将观测值和期望值准确代入卡方统计量公式 χ 2 = ∑ ( O − E ) 2 E \chi^{2}\ =\sum\frac{(O - E)^{2}}{E} χ2 =E(OE)2,对所有相关类别或单元格进行细致计算并求和。这个过程需要严谨细致,确保计算的准确性,因为卡方统计量是我们后续判断的关键依据。

(四)确定自由度

  1. 拟合优度检验:自由度 \ = 分类数 - 1。自由度反映了数据的自由变动程度,它与分类的数量密切相关。
  2. 独立性检验:自由度 \ = (行数 - 1)×(列数 - 1)。在列联表中,行数和列数共同决定了自由度的大小,自由度的准确计算对于后续查找临界值至关重要。

(五)查找临界值

根据选定的显著性水平(常用的有 α = 0.05 \alpha \ = 0.05 α =0.05 α = 0.01 \alpha \ = 0.01 α =0.01等)和确定的自由度,仔细查阅卡方分布表,找到对应的临界值。显著性水平代表了我们在检验中允许犯第一类错误(弃真错误)的概率,它的选择需要综合考虑研究的性质、风险承受能力等因素。

(六)做出决策

将计算得到的卡方值与临界值进行全面比较:

  1. 若卡方值小于临界值,说明观测数据与预期情况的差异在可接受范围内,我们接受原假设,认为观测数据与预期情况相符(拟合优度检验)或两个变量相互独立(独立性检验)。
  2. 若卡方值大于临界值,表明观测数据与预期情况存在显著差异,我们拒绝原假设,得出观测数据不符合预期分布或两个变量存在关联的结论。

五、注意事项

  1. 样本量要求:一般而言,样本量越大,卡方检验的结果就越可靠。这是因为大样本能够更准确地反映总体的特征和分布情况。当样本量过小时,可能会导致卡方检验的功效降低,即检验无法敏锐地检测到实际存在的差异,从而容易出现错误的判断。例如,在一些小型的初步研究中,如果样本量不足,可能会将原本存在关联的两个变量误判为相互独立。
  2. 理论分布假设:在拟合优度检验中,务必确保所假设的理论分布是合理的,并且与研究问题的背景高度契合。如果理论假设错误,那么整个检验就如同建立在沙地上的楼阁,检验结果将毫无意义。比如,在研究某种特殊生物的生长数据时,如果错误地假设其符合正态分布,而实际上该生物的生长受到多种复杂因素的影响,不符合正态分布特征,那么基于此假设的检验结果将无法提供有价值的信息。
  3. 单元格期望值:在独立性检验构建列联表时,应竭尽全力保证每个单元格的期望值不小于 5。这是因为当期望值过小时,卡方统计量的分布可能会偏离理论假设,从而影响检验的准确性。如果出现期望值过小的单元格,可能需要对数据进行合理合并或采用其他校正方法,以确保检验的可靠性。例如,在一些市场细分调查中,如果某些细分市场的样本量过少,导致列联表中相应单元格的期望值过小,就需要考虑将这些细分市场进行合并,或者采用更适合小期望值情况的校正方法来进行检验。

通过以上全面而深入的教程,希望你能对卡方检验有一个透彻的理解,并能在实际研究和工作中熟练、正确地运用这一强大的统计工具,从数据中挖掘出有价值的信息,为决策提供坚实的支持。


http://www.ppmy.cn/news/1573909.html

相关文章

Python的那些事第二十三篇:Express(Node.js)与 Python:一场跨语言的浪漫邂逅

摘要 在当今的编程世界里,Node.js 和 Python 像是两个性格迥异的超级英雄,一个以速度和灵活性著称,另一个则以强大和优雅闻名。本文将探讨如何通过 Express 框架将 Node.js 和 Python 结合起来,打造出一个高效、有趣的 Web 应用。我们将通过一系列幽默风趣的实例和表格,展…

【AB-01】 AUTOSAR Builder软件安装

1. Install AUTOSAR builder and EB Tresos AUTOSAR builder使用安装包进行安装即可,注意,在安装过程中会提示需要license,选择跳过或者其他选项,使得软件安装完成即可。 打开软件的界面如下,在下部状态栏会提示没有…

基于GraphQL的电商API性能优化实战

以下是一个基于 GraphQL 的电商 API 性能优化实战案例,涵盖从问题分析到具体优化措施的实施过程: 一、初始问题分析 在电商场景下,随着业务发展,基于 GraphQL 的 API 出现了一些性能瓶颈。例如: 复杂查询导致响应时间过…

SWAT| 水文 | SWAT模型(三):土壤数据库制备

Tips: 本期向大家分享SWAT模型的土壤数据库的制备方法。在开始之前,要注意的是:我的土壤数据是HWSD世界土壤数据,需要进行土壤重新分类。最终要完成的任务有3项,分别是: (1&#xff09…

解决 Nginx 代理后 HTTP 头部丢失的问题:以 access_token 为例

文章目录 前言一、问题描述二、问题原因三、解决方案3.1 启用 underscores_in_headers3.2 重新加载 Nginx 配置 总结 前言 在日常开发和运维中,我们经常会使用 Nginx 作为反向代理服务器,将客户端的请求转发到后端服务。然而,在某些情况下&a…

DeepSeek系统架构的逐层分类拆解分析,从底层基础设施到用户端分发全链路

一、底层基础设施层 1. 硬件服务器集群 算力单元: GPU集群:基于NVIDIA H800/H100 GPU构建,单集群规模超10,000卡,采用NVLink全互联架构实现低延迟通信。国产化支持:适配海光DCU、寒武纪MLU等国产芯片,通过…

编写dockercompose脚本,管理redis,activemq,mysql5.7

编写dockercompose脚本,管理redis,activemq,mysql5.7,mysql的root密码设置Duke2007,redis密码设置duke0591 Docker Compose 多服务编排脚本(安全增强版) yaml 复制 services: # # MySQL 5.7 服务配置 #…

ubuntu安装docker docker/DockerHub 国内镜像源/加速列表【持续更新】

ubuntu安装docker & docker镜像代理【持续更新】 在Ubuntu上安装Docker,你可以选择两种主要方法:从Ubuntu的仓库安装,或者使用Docker的官方仓库安装。下面我会详细解释这两种方法。 方法一:从Ubuntu的仓库安装Docker 这种方…