机器学习数学基础:37.偏相关分析

embedded/2025/2/25 23:24:17/

偏相关分析教程

一、偏相关分析是什么

在很多复杂的系统中,比如地理系统,会有多个要素相互影响。偏相关分析就是在这样多要素构成的系统里,不考虑其他要素的干扰,专门去研究两个要素之间关系紧密程度的一种方法。用来衡量这种紧密程度的数值,叫做偏相关系数。

举个简单例子,在研究一个地区的房价时,房价会受到很多因素影响,像地段、房屋面积、周边配套设施等。如果我们想知道单纯的房屋面积和房价之间的关系,就可以用偏相关分析,把地段、周边配套设施等其他因素的影响先排除掉。

二、适用场景

偏相关分析适用于各种多因素影响的场景,不仅是地理领域,在经济领域分析商品销量和价格关系时,可控制消费者喜好、广告投入等因素;在教育领域研究学生成绩和学习方法的关系时,可控制学生的基础水平、家庭环境等因素。只要存在多个因素相互关联,且你想明确其中两个因素的纯粹关系,都能用到它。

三、相关符号含义

(一)偏相关系数公式符号

在分析变量 x 1 x_1 x1 x 2 x_2 x2之间的净相关(也就是排除其他因素后的相关关系),并且控制了变量 x 3 x_3 x3的影响时,会用到一阶偏相关系数公式 r 12.3 = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1r132)(1r232) r12r13r23,公式里各符号含义如下:

  • r 12 r_{12} r12:变量 x 1 x_1 x1 x 2 x_2 x2的简单相关系数,就是不考虑其他因素时,这两个变量之间的相关程度。比如在研究身高( x 1 x_1 x1)和体重( x 2 x_2 x2)关系时,不考虑年龄、饮食习惯等因素算出来的相关系数。
  • r 13 r_{13} r13:变量 x 1 x_1 x1 x 3 x_3 x3的简单相关系数。比如身高( x 1 x_1 x1)和年龄( x 3 x_3 x3)的相关系数。
  • r 23 r_{23} r23:变量 x 2 x_2 x2 x 3 x_3 x3的简单相关系数。比如体重( x 2 x_2 x2)和年龄( x 3 x_3 x3)的相关系数。
  • r 12.3 r_{12.3} r12.3:控制变量 x 3 x_3 x3后,变量 x 1 x_1 x1 x 2 x_2 x2之间的一阶偏相关系数。它反映了排除 x 3 x_3 x3的影响后, x 1 x_1 x1 x 2 x_2 x2的相关程度。

(二)显著性检验公式符号

公式 t = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1r2 rnk2 ,服从 t ( n − k − 2 ) t(n - k - 2) t(nk2)分布,用于偏相关系数的显著性检验,其中各符号含义为:

  • t t t:计算得出的统计量,用于和临界值比较,以此判断偏相关系数是否显著。
  • r r r:代表偏相关系数,即通过偏相关分析公式计算得到的,体现两个变量在控制其他变量影响后的相关程度的数值,范围在 − 1 -1 1 1 1 1之间。
  • n n n:表示样本容量,也就是参与分析的数据的数量。
  • k k k:是控制变量的个数。

四、计算步骤

(一)计算偏相关系数(以研究农作物产量、施肥量和降水量关系为例)

假设我们要研究农作物产量( x 1 x_1 x1)和施肥量( x 2 x_2 x2)之间的关系,同时知道降水量( x 3 x_3 x3)也会影响它们,现在来计算控制降水量后,产量和施肥量的偏相关系数。

  1. 收集数据并计算简单相关系数
    收集多年的农作物产量、施肥量、降水量数据。通过统计分析计算得到:
    • 农作物产量与施肥量的简单相关系数 r 12 = 0.6 r_{12}\ =0.6 r12 =0.6
    • 农作物产量与降水量的简单相关系数 r 13 = 0.4 r_{13}\ =0.4 r13 =0.4
    • 施肥量与降水量的简单相关系数 r 23 = 0.3 r_{23}\ =0.3 r23 =0.3
  2. 计算一阶偏相关系数 r 12.3 r_{12.3} r12.3
    把上面得到的数值代入公式 r 12.3 = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1r132)(1r232) r12r13r23
    r 12.3 = 0.6 − 0.4 × 0.3 ( 1 − 0. 4 2 ) ( 1 − 0. 3 2 ) = 0.6 − 0.12 ( 1 − 0.16 ) ( 1 − 0.09 ) = 0.48 0.84 × 0.91 = 0.48 0.7644 ≈ 0.55 \begin{align*} r_{12.3}&\ =\frac{0.6 - 0.4×0.3}{\sqrt{(1 - 0.4^{2})(1 - 0.3^{2})}}\\ &\ =\frac{0.6 - 0.12}{\sqrt{(1 - 0.16)(1 - 0.09)}}\\ &\ =\frac{0.48}{\sqrt{0.84×0.91}}\\ &\ =\frac{0.48}{\sqrt{0.7644}}\\ &\approx0.55 \end{align*} r12.3 =(10.42)(10.32) 0.60.4×0.3 =(10.16)(10.09) 0.60.12 =0.84×0.91 0.48 =0.7644 0.480.55
  3. 结果分析
    得到的一阶偏相关系数 r 12.3 ≈ 0.55 r_{12.3}\approx0.55 r12.30.55,说明在排除降水量的影响后,农作物产量和施肥量之间存在比较明显的正相关关系,即不考虑降水量因素,施肥量增加,农作物产量也倾向于增加。

(二)偏相关系数的显著性检验(接着上述例子)

  1. 计算 t t t统计量
    假设样本数量 n = 30 n \ = 30 n =30(即收集了30组农作物产量、施肥量和降水量的数据),这里控制变量只有降水量,即 k = 1 k \ = 1 k =1,偏相关系数 r = 0.55 r \ = 0.55 r =0.55,将这些值代入公式 t = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1r2 rnk2
    t = 0.55 × 30 − 1 − 2 1 − 0.5 5 2 = 0.55 × 27 1 − 0.3025 = 0.55 × 5.2 0.6975 = 2.86 0.6975 ≈ 3.43 \begin{align*} t&\ =\frac{0.55\times\sqrt{30 - 1 - 2}}{\sqrt{1 - 0.55^{2}}}\\ &\ =\frac{0.55\times\sqrt{27}}{\sqrt{1 - 0.3025}}\\ &\ =\frac{0.55\times5.2}{\sqrt{0.6975}}\\ &\ =\frac{2.86}{\sqrt{0.6975}}\\ &\approx3.43 \end{align*} t =10.552 0.55×3012  =10.3025 0.55×27  =0.6975 0.55×5.2 =0.6975 2.863.43
  2. 确定临界值并判断
    设定显著性水平 α = 0.05 \alpha \ = 0.05 α =0.05,自由度 d f = n − k − 2 = 30 − 1 − 2 = 27 df\ =n - k - 2 \ = 30 - 1 - 2 \ = 27 df =nk2 =3012 =27。查 t t t分布表,找到自由度为 27 27 27,双侧 α = 0.05 \alpha \ = 0.05 α =0.05时的临界值约为 2.052 2.052 2.052
    由于计算得到的 ∣ t ∣ = 3.43 > 2.052 \vert t\vert \ = 3.43> 2.052 t =3.43>2.052,所以拒绝原假设(原假设为总体中控制降水量后,农作物产量和施肥量无相关关系) 。这表明在总体中,控制降水量后,农作物产量和施肥量之间存在显著的相关关系。

五、注意事项

  1. 偏相关分析依赖的数据必须准确可靠,数据质量不好会影响结果准确性。
  2. 确定控制变量很关键,如果选择了不恰当的控制变量,可能得不到想要的纯粹的两个变量之间的关系。
  3. 偏相关系数只能说明两个变量在排除其他因素后的关联程度,不能直接说明存在因果关系。
  4. 在进行显著性检验时,要正确确定样本容量和控制变量个数,以保证自由度计算准确,从而得出可靠的检验结果。

http://www.ppmy.cn/embedded/167141.html

相关文章

使用django调用deepseek api,搭建ai网站

一、deepseek简介 DeepSeek是一家人工智能公司,专注于开发先进的人工智能模型和技术。以下是关于DeepSeek的一些详细介绍: 1.公司背景 DeepSeek由杭州深度求索人工智能基础技术研究有限公司开发,致力于通过创新的技术和算法,推…

使用 Docker 部署 Flask 应用

使用 Docker 部署 Flask 应用 一、引言 在现代软件开发中,应用的部署和环境管理是至关重要的环节。传统的部署方式常常会遇到 “在我机器上能运行,在你机器上不行” 的问题,而 Docker 的出现很好地解决了这个痛点。Docker 是一个用于开发、部署和运行应用程序的开放平台,…

在windows下安装windows+Ubuntu16.04双系统(上)

这篇文章的内容主要来源于这篇文章,给文章很详细的介绍了如何从windows下安装windowsubuntu16.04双系统。我刚开始装双系统都是参照这个方法,该作者前后更新了两个版本,在这里对其稍微进行整理一下。 一、准备:(这里推…

PyTorch 源码学习:Dispatch Autograd Operators

对于 PyTorch 的动态计算图 (Dynamic Computation Graph) 模式来说,算子 (Operators) 注册、分发 (Dispatch) 机制和自动微分 (Autograd) 机制是至关重要的,了解这部分内容有助于更好地理解 PyTorch 动态计算图的运行机制。本文分享自己在学习 PyTorch 源…

【深度学习】Pytorch的深入理解和研究

一、Pytorch核心理解 PyTorch 是一个灵活且强大的深度学习框架,广泛应用于研究和工业领域。要深入理解和研究 PyTorch,需要从其核心概念、底层机制以及高级功能入手。以下是对 PyTorch 的深入理解与研究的详细说明。 1. 概念 动态计算图(D…

算法日常刷题笔记(1)

为保持刷题的习惯 计划一天刷3-5题 然后一周总计汇总一下 这是第一篇笔记 笔记时间为2月10日到2月17日 第一天 袋子里最少数目的球 袋子里最少数目的球https://leetcode.cn/problems/minimum-limit-of-balls-in-a-bag/ 给你一个整数数组 nums ,其中 nums[i] 表示…

汽车4S行业的信息化特点与BI建设挑战

汽车行业也是一个非常大的行业,上下游非常广,像主机厂,上游的零配件,下游的汽车流通,汽车流通之后的汽车后市场,整个链条比较长。今天主要讲的是汽车流通,汽车4S集团。一个汽车4S集团下面授权代…

DeepSeek 助力 Vue 开发:打造丝滑的缩略图列表(Thumbnail List)

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…