机器学习数学基础:37.偏相关分析

server/2025/2/28 15:27:57/

偏相关分析教程

一、偏相关分析是什么

在很多复杂的系统中,比如地理系统,会有多个要素相互影响。偏相关分析就是在这样多要素构成的系统里,不考虑其他要素的干扰,专门去研究两个要素之间关系紧密程度的一种方法。用来衡量这种紧密程度的数值,叫做偏相关系数。

举个简单例子,在研究一个地区的房价时,房价会受到很多因素影响,像地段、房屋面积、周边配套设施等。如果我们想知道单纯的房屋面积和房价之间的关系,就可以用偏相关分析,把地段、周边配套设施等其他因素的影响先排除掉。

二、适用场景

偏相关分析适用于各种多因素影响的场景,不仅是地理领域,在经济领域分析商品销量和价格关系时,可控制消费者喜好、广告投入等因素;在教育领域研究学生成绩和学习方法的关系时,可控制学生的基础水平、家庭环境等因素。只要存在多个因素相互关联,且你想明确其中两个因素的纯粹关系,都能用到它。

三、相关符号含义

(一)偏相关系数公式符号

在分析变量 x 1 x_1 x1 x 2 x_2 x2之间的净相关(也就是排除其他因素后的相关关系),并且控制了变量 x 3 x_3 x3的影响时,会用到一阶偏相关系数公式 r 12.3 = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1r132)(1r232) r12r13r23,公式里各符号含义如下:

  • r 12 r_{12} r12:变量 x 1 x_1 x1 x 2 x_2 x2的简单相关系数,就是不考虑其他因素时,这两个变量之间的相关程度。比如在研究身高( x 1 x_1 x1)和体重( x 2 x_2 x2)关系时,不考虑年龄、饮食习惯等因素算出来的相关系数。
  • r 13 r_{13} r13:变量 x 1 x_1 x1 x 3 x_3 x3的简单相关系数。比如身高( x 1 x_1 x1)和年龄( x 3 x_3 x3)的相关系数。
  • r 23 r_{23} r23:变量 x 2 x_2 x2 x 3 x_3 x3的简单相关系数。比如体重( x 2 x_2 x2)和年龄( x 3 x_3 x3)的相关系数。
  • r 12.3 r_{12.3} r12.3:控制变量 x 3 x_3 x3后,变量 x 1 x_1 x1 x 2 x_2 x2之间的一阶偏相关系数。它反映了排除 x 3 x_3 x3的影响后, x 1 x_1 x1 x 2 x_2 x2的相关程度。

(二)显著性检验公式符号

公式 t = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1r2 rnk2 ,服从 t ( n − k − 2 ) t(n - k - 2) t(nk2)分布,用于偏相关系数的显著性检验,其中各符号含义为:

  • t t t:计算得出的统计量,用于和临界值比较,以此判断偏相关系数是否显著。
  • r r r:代表偏相关系数,即通过偏相关分析公式计算得到的,体现两个变量在控制其他变量影响后的相关程度的数值,范围在 − 1 -1 1 1 1 1之间。
  • n n n:表示样本容量,也就是参与分析的数据的数量。
  • k k k:是控制变量的个数。

四、计算步骤

(一)计算偏相关系数(以研究农作物产量、施肥量和降水量关系为例)

假设我们要研究农作物产量( x 1 x_1 x1)和施肥量( x 2 x_2 x2)之间的关系,同时知道降水量( x 3 x_3 x3)也会影响它们,现在来计算控制降水量后,产量和施肥量的偏相关系数。

  1. 收集数据并计算简单相关系数
    收集多年的农作物产量、施肥量、降水量数据。通过统计分析计算得到:
    • 农作物产量与施肥量的简单相关系数 r 12 = 0.6 r_{12}\ =0.6 r12 =0.6
    • 农作物产量与降水量的简单相关系数 r 13 = 0.4 r_{13}\ =0.4 r13 =0.4
    • 施肥量与降水量的简单相关系数 r 23 = 0.3 r_{23}\ =0.3 r23 =0.3
  2. 计算一阶偏相关系数 r 12.3 r_{12.3} r12.3
    把上面得到的数值代入公式 r 12.3 = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1r132)(1r232) r12r13r23
    r 12.3 = 0.6 − 0.4 × 0.3 ( 1 − 0. 4 2 ) ( 1 − 0. 3 2 ) = 0.6 − 0.12 ( 1 − 0.16 ) ( 1 − 0.09 ) = 0.48 0.84 × 0.91 = 0.48 0.7644 ≈ 0.55 \begin{align*} r_{12.3}&\ =\frac{0.6 - 0.4×0.3}{\sqrt{(1 - 0.4^{2})(1 - 0.3^{2})}}\\ &\ =\frac{0.6 - 0.12}{\sqrt{(1 - 0.16)(1 - 0.09)}}\\ &\ =\frac{0.48}{\sqrt{0.84×0.91}}\\ &\ =\frac{0.48}{\sqrt{0.7644}}\\ &\approx0.55 \end{align*} r12.3 =(10.42)(10.32) 0.60.4×0.3 =(10.16)(10.09) 0.60.12 =0.84×0.91 0.48 =0.7644 0.480.55
  3. 结果分析
    得到的一阶偏相关系数 r 12.3 ≈ 0.55 r_{12.3}\approx0.55 r12.30.55,说明在排除降水量的影响后,农作物产量和施肥量之间存在比较明显的正相关关系,即不考虑降水量因素,施肥量增加,农作物产量也倾向于增加。

(二)偏相关系数的显著性检验(接着上述例子)

  1. 计算 t t t统计量
    假设样本数量 n = 30 n \ = 30 n =30(即收集了30组农作物产量、施肥量和降水量的数据),这里控制变量只有降水量,即 k = 1 k \ = 1 k =1,偏相关系数 r = 0.55 r \ = 0.55 r =0.55,将这些值代入公式 t = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1r2 rnk2
    t = 0.55 × 30 − 1 − 2 1 − 0.5 5 2 = 0.55 × 27 1 − 0.3025 = 0.55 × 5.2 0.6975 = 2.86 0.6975 ≈ 3.43 \begin{align*} t&\ =\frac{0.55\times\sqrt{30 - 1 - 2}}{\sqrt{1 - 0.55^{2}}}\\ &\ =\frac{0.55\times\sqrt{27}}{\sqrt{1 - 0.3025}}\\ &\ =\frac{0.55\times5.2}{\sqrt{0.6975}}\\ &\ =\frac{2.86}{\sqrt{0.6975}}\\ &\approx3.43 \end{align*} t =10.552 0.55×3012  =10.3025 0.55×27  =0.6975 0.55×5.2 =0.6975 2.863.43
  2. 确定临界值并判断
    设定显著性水平 α = 0.05 \alpha \ = 0.05 α =0.05,自由度 d f = n − k − 2 = 30 − 1 − 2 = 27 df\ =n - k - 2 \ = 30 - 1 - 2 \ = 27 df =nk2 =3012 =27。查 t t t分布表,找到自由度为 27 27 27,双侧 α = 0.05 \alpha \ = 0.05 α =0.05时的临界值约为 2.052 2.052 2.052
    由于计算得到的 ∣ t ∣ = 3.43 > 2.052 \vert t\vert \ = 3.43> 2.052 t =3.43>2.052,所以拒绝原假设(原假设为总体中控制降水量后,农作物产量和施肥量无相关关系) 。这表明在总体中,控制降水量后,农作物产量和施肥量之间存在显著的相关关系。

五、注意事项

  1. 偏相关分析依赖的数据必须准确可靠,数据质量不好会影响结果准确性。
  2. 确定控制变量很关键,如果选择了不恰当的控制变量,可能得不到想要的纯粹的两个变量之间的关系。
  3. 偏相关系数只能说明两个变量在排除其他因素后的关联程度,不能直接说明存在因果关系。
  4. 在进行显著性检验时,要正确确定样本容量和控制变量个数,以保证自由度计算准确,从而得出可靠的检验结果。

http://www.ppmy.cn/server/171321.html

相关文章

React 项目创建与文件基础结构关系

点击查看react官方文档 //index.js //整个项目的入口,项目从此开始运行//导入react和react-dom两个必要的核心包 import React from react; import ReactDOM from react-dom/client;//导入App组件(根组件) import App from ./App;//把App根组件渲染到id为root的dom…

Deepseek开源周,第二天:Deep EP

DeepSeek 开源的 DeepEP 项目是一个专为 MoE(混合专家)模型设计的开源通信库,旨在优化训练和推理效率。其对开发者的核心价值体现在以下方面: 1. 显著提升训练与推理性能 全连接通信优化 通过高效优化的 All-to-All 通信机制&…

机器学习:强化学习的epsilon贪心算法

强化学习(Reinforcement Learning, RL)是一种机器学习方法,旨在通过与环境交互,使智能体(Agent)学习如何采取最优行动,以最大化某种累积奖励。它与监督学习和无监督学习不同,强调试错…

Unity报错:InvalidOperationException: Insecure connection not allowed

Unity报错:InvalidOperationException: Insecure connection not allowed 介绍问题原因解决方案方案一:Unity配置文件修改方案二:将网址做备案和证书认证 总结 介绍 最近在做抖音小程序的升级(官方换新API),框架的加载…

计算机毕业设计SpringBoot+Vue.js音乐网站(源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

docker-compose方式启动Kafka Sasl加密认证(无zk)

首先参考文档,思考过程可以进行参考https://juejin.cn/post/7294556533932884020#heading-3 用的镜像是Bitnami,对SASL配置进行了简化,需要按照特定格式去配置jass验证 完整配置如下 镜像版本参考:https://hub.docker.com/r/bitn…

第12章_管理令牌和会话

管理令牌和会话 除了充当集中式身份验证和授权服务外,Keycloak 的核心还是一个会话和令牌管理系统。 作为身份验证过程的一部分,Keycloak 可以创建服务器端会话并将它们与令牌相关联。通过依赖这些会话,Keycloak 能够保持会话发起的身份验证…

贪心算法:JAVA从理论到实践的探索

在计算机科学领域,贪心算法是一种简单而高效的算法设计策略,广泛应用于优化问题的求解。它通过在每一步选择中都采取当前状态下最优的选择,以期望最终得到全局最优解。本文将深入探讨贪心算法的原理、应用场景,并通过具体代码示例,帮助读者更好地理解和掌握这一算法。 一…