机器学习数学基础:38.复相关系数

news/2025/2/28 21:59:31/

一、概念深度解读

复相关系数反映的是几个要素与某一个要素之间的复相关程度,其值介于0到1之间。可以将其类比为一把“尺子”,用来衡量多个因素作为一个整体,对某一特定结果的影响紧密程度。

  • 完全相关情况:当复相关系数为1时,表示完全相关。这就好比在一个理想的数学模型中,多个自变量的组合能够精确地决定因变量的值。例如,在一个严格按照固定公式计算报酬的工作场景中,工作时长、工作效率等自变量组合起来,能精确地得出员工的报酬,此时这些自变量与报酬之间的复相关系数就是1 。
  • 无相关情况:复相关系数为0,则表示这些要素之间没有关联。比如,在研究个人的身高与股票涨跌之间的关系时,正常情况下,无论身高如何变化,都不会对股票涨跌产生影响,它们之间的复相关系数就趋近于0 。
  • 一般相关情况:在实际应用中,更多的是介于0到1之间的数值。数值越大,表明要素(变量)之间的相关程度越密切。例如在分析学生的考试成绩时,学习时间、学习方法、学习态度等多个因素与考试成绩之间的复相关系数越大,说明这些因素综合起来对成绩的影响越显著。

二、公式详细推导与说明

  1. 两个自变量时
    公式为 R y . 12 = 1 − ( 1 − r y 1 2 ) ( 1 − r y 2.1 2 ) R_{y.12} \ = \sqrt{1-(1 - r_{y1}^{2})(1 - r_{y2.1}^{2})} Ry.12 =1(1ry12)(1ry2.12)

    • 符号含义
      R y . 12 R_{y.12} Ry.12表示变量 y y y与自变量 x 1 x_1 x1 x 2 x_2 x2之间的复相关系数; r y 1 r_{y1} ry1是变量 y y y与自变量 x 1 x_1 x1的简单相关系数,体现了不考虑其他因素时, y y y x 1 x_1 x1的关联程度; r y 2.1 r_{y2.1} ry2.1是变量 y y y在控制了 x 1 x_1 x1的影响后与 x 2 x_2 x2的偏相关系数,也就是排除 x 1 x_1 x1的作用后, y y y x 2 x_2 x2的相关程度。
    • 公式原理:公式的核心思路是通过简单相关系数和偏相关系数,去除各变量之间的重叠影响部分,从而得到多个自变量与因变量之间的综合相关程度。 ( 1 − r y 1 2 ) (1 - r_{y1}^{2}) (1ry12) ( 1 − r y 2.1 2 ) (1 - r_{y2.1}^{2}) (1ry2.12)分别表示 y y y x 1 x_1 x1 y y y在控制 x 1 x_1 x1后与 x 2 x_2 x2未解释的变异比例,两者相乘再用1去减并开方,就得到了复相关系数。
  2. 三个自变量时
    公式为 R y . 123 = 1 − ( 1 − r y 1 2 ) ( 1 − r y 2.1 2 ) ( 1 − r y 3.12 2 ) R_{y.123} \ = \sqrt{1-(1 - r_{y1}^{2})(1 - r_{y2.1}^{2})(1 - r_{y3.12}^{2})} Ry.123 =1(1ry12)(1ry2.12)(1ry3.122)

    • 符号含义
      R y . 123 R_{y.123} Ry.123表示变量 y y y与自变量 x 1 x_1 x1 x 2 x_2 x2 x 3 x_3 x3之间的复相关系数; r y 1 r_{y1} ry1 y y y x 1 x_1 x1的简单相关系数; r y 2.1 r_{y2.1} ry2.1 y y y在控制 x 1 x_1 x1影响后与 x 2 x_2 x2的偏相关系数; r y 3.12 r_{y3.12} ry3.12 y y y在控制 x 1 x_1 x1 x 2 x_2 x2的影响后与 x 3 x_3 x3的偏相关系数。
    • 公式原理:与两个自变量的情况类似,这里进一步考虑了第三个自变量 x 3 x_3 x3的影响,通过连乘的方式依次排除 x 1 x_1 x1 x 2 x_2 x2以及 x 1 x_1 x1 x 2 x_2 x2共同作用后, y y y未被解释的变异比例,从而得出三个自变量与因变量的综合相关程度。

三、详细示例

  1. 两个自变量示例(以汽车油耗为例)
    假设我们研究汽车的百公里油耗(变量 y y y)与汽车的发动机排量(自变量 x 1 x_1 x1)、汽车的整备质量(自变量 x 2 x_2 x2)之间的关系。

    • 数据收集与简单计算
      通过对不同型号汽车的数据收集和分析,得到汽车百公里油耗与发动机排量的简单相关系数 r y 1 = 0.7 r_{y1}\ =0.7 ry1 =0.7,这说明在不考虑其他因素时,发动机排量越大,百公里油耗往往越高;汽车百公里油耗在控制了发动机排量影响后与整备质量的偏相关系数 r y 2.1 = 0.4 r_{y2.1}\ =0.4 ry2.1 =0.4,即排除发动机排量的影响,整备质量也会对油耗产生一定作用。
    • 复相关系数计算
      根据公式 R y . 12 = 1 − ( 1 − r y 1 2 ) ( 1 − r y 2.1 2 ) R_{y.12} \ = \sqrt{1-(1 - r_{y1}^{2})(1 - r_{y2.1}^{2})} Ry.12 =1(1ry12)(1ry2.12) 计算:
      R y . 12 = 1 − ( 1 − 0. 7 2 ) ( 1 − 0. 4 2 ) = 1 − ( 1 − 0.49 ) ( 1 − 0.16 ) = 1 − 0.51 × 0.84 = 1 − 0.4284 = 0.5716 ≈ 0.76 \begin{align*} R_{y.12}&\ =\sqrt{1-(1 - 0.7^{2})(1 - 0.4^{2})}\\ &\ =\sqrt{1-(1 - 0.49)(1 - 0.16)}\\ &\ =\sqrt{1 - 0.51\times0.84}\\ &\ =\sqrt{1 - 0.4284}\\ &\ =\sqrt{0.5716}\\ &\approx0.76 \end{align*} Ry.12 =1(10.72)(10.42)  =1(10.49)(10.16)  =10.51×0.84  =10.4284  =0.5716 0.76
    • 结果分析:复相关系数约为0.76,表明发动机排量和整备质量这两个因素整体与汽车百公里油耗之间有较为密切的相关关系。也就是说,这两个因素综合起来能在较大程度上解释汽车百公里油耗的变化情况。
  2. 三个自变量示例(以城市用水量为例)
    假设 x 4 x_4 x4代表某城市的日用水量(因变量), x 1 x_1 x1代表城市的人口数量, x 2 x_2 x2代表城市的工业生产总值, x 3 x_3 x3代表当日的平均气温(自变量)。

    • 数据收集与简单计算
      经过调查分析,得到 x 4 x_4 x4 x 1 x_1 x1的简单相关系数 r 41 = 0.6 r_{41}\ =0.6 r41 =0.6,说明人口数量的增加会在一定程度上影响日用水量; x 4 x_4 x4在控制 x 1 x_1 x1影响后与 x 2 x_2 x2的偏相关系数 r 42.1 = 0.8 r_{42.1}\ =0.8 r42.1 =0.8,即排除人口数量因素后,工业生产总值对用水量也有显著影响; x 4 x_4 x4在控制 x 1 x_1 x1 x 2 x_2 x2影响后与 x 3 x_3 x3的偏相关系数 r 43.12 = 0.3 r_{43.12}\ =0.3 r43.12 =0.3,表示在排除人口数量和工业生产总值的影响后,平均气温也会对日用水量产生一定作用。
    • 复相关系数计算
      根据公式 R 4.123 = 1 − ( 1 − r 41 2 ) ( 1 − r 42.1 2 ) ( 1 − r 43.12 2 ) R_{4.123} \ = \sqrt{1-(1 - r_{41}^{2})(1 - r_{42.1}^{2})(1 - r_{43.12}^{2})} R4.123 =1(1r412)(1r42.12)(1r43.122) 计算:
      R 4.123 = 1 − ( 1 − 0. 6 2 ) ( 1 − 0. 8 2 ) ( 1 − 0. 3 2 ) = 1 − ( 1 − 0.36 ) ( 1 − 0.64 ) ( 1 − 0.09 ) = 1 − 0.64 × 0.36 × 0.91 = 1 − 0.2099 = 0.7901 ≈ 0.89 \begin{align*} R_{4.123}&\ =\sqrt{1-(1 - 0.6^{2})(1 - 0.8^{2})(1 - 0.3^{2})}\\ &\ =\sqrt{1-(1 - 0.36)(1 - 0.64)(1 - 0.09)}\\ &\ =\sqrt{1 - 0.64\times0.36\times0.91}\\ &\ =\sqrt{1 - 0.2099}\\ &\ =\sqrt{0.7901}\\ &\approx0.89 \end{align*} R4.123 =1(10.62)(10.82)(10.32)  =1(10.36)(10.64)(10.09)  =10.64×0.36×0.91  =10.2099  =0.7901 0.89
    • 结果分析:复相关系数约为0.89,接近1,说明人口数量、工业生产总值和当日平均气温这三个因素整体与城市日用水量之间存在高度紧密的相关关系。这三个因素综合起来能够很好地解释城市日用水量的变化情况。

http://www.ppmy.cn/news/1575605.html

相关文章

阿里云的 ECS(Elastic Compute Service)实例

阿里云的 ECS(Elastic Compute Service)实例 是一种高可扩展、灵活的计算服务,允许用户在云上运行虚拟机。通过ECS,用户可以在阿里云的云基础设施上启动、配置和管理虚拟服务器(实例),这些实例具…

开发 picgo-plugin-huawei 插件,解决华为云社区外链限制问题

开发 picgo-plugin-huawei 插件,解决华为云社区外链限制问题 在技术博客平台中,外链的使用常常受到限制,这给我们的写作和内容展示带来了一定的不便。为了应对这一问题,我开发了 picgo-plugin-huawei 插件,它能够有效…

【一文入门】shell语法进阶篇

Shell 脚本的进阶语法涉及更复杂的编程结构、数据处理和系统交互。以下是一些进阶的 Shell 编程概念和技巧,帮助你提升编写复杂脚本的能力。 前置知识 【一文入门】shell基础语法 【一文入门】shell语法进阶篇 1. 高级变量操作 间接引用:通过变量名的…

【深度学习】基于MXNet的多层感知机的实现

多层感知机 结构组成 大致由三层组成:输入层-隐藏层-输出层,其中隐藏层大于等于一层 其中,隐藏层和输出层都是全连接 隐藏层的层数和神经元个数也是超参数 多层隐藏层,在本质上仍等价于单层神经网络(可从输出方程…

MATLAB中regexprep函数用法

目录 语法 说明 示例 更新的文本 在替代文本中包括词元 在替代文本中包括动态表达式 更新多段文本 保留原始文本中的大小写 替换零长度匹配项 regexprep函数的功能是使用正则表达式替换文本。 语法 newStr regexprep(str,expression,replace) newStr regexprep(st…

JavaScript设计模式 -- 外观模式

外观模式(Facade Pattern)是一种设计模式,用于为复杂的子系统提供一个简单的接口,以减少子系统间的依赖和复杂性。在 JavaScript 中实现外观模式,通常是为了提供一个统一的接口来简化客户端与多个子系统交互的过程。 外…

游戏引擎学习第126天

仓库:https://gitee.com/mrxiao_com/2d_game_3 单生产者/多消费者问题 在今天的讨论中,主要与多线程编程有关。问题出现在多线程环境中,当多个线程同时访问共享资源时,代码没有正确处理竞争条件,导致了错误的行为。 具体问题发…

Vscode编辑器获取更新远程最新分支

解决:打开当前项目的终端,输入 git remote update origin --prune # 查看远程分支 git branch -r --prune --prune 参数告诉 Git 清理那些远程仓库中已经删除但本地仍然存在的跟踪分支。 命令作用 更新远程仓库引用: git remote update …