相关性分析

news/2024/9/13 23:46:29/ 标签: 数学建模

斯皮尔曼、皮尔逊、肯德尔、点双列相关分析、偏相关分析、距离相关分析、双变量回归分析和互信息。

特性斯皮尔曼相关分析(Spearman Correlation)皮尔逊相关分析(Pearson Correlation)肯德尔相关分析(Kendall’s Tau)点双列相关分析(Point-Biserial Correlation)偏相关分析(Partial Correlation)距离相关分析(Distance Correlation)双变量回归分析(Bi-variate Regression Analysis)互信息(Mutual Information)
定义基于变量排名的相关系数,衡量两个变量的单调关系衡量两个变量之间的线性关系基于秩的非参数相关性测度,衡量两个变量之间的一致性。适用于一个变量是二元分类变量,另一个是连续变量的情况。在控制其他变量的影响后,衡量两变量之间的相关性。衡量任意类型数据之间关系的统计方法,能够检测线性和非线性关系。评估两个变量之间的关系,通常用于预测变量和响应变量之间的关系。衡量两个随机变量之间的信息量,反映变量之间的任意依赖关系。
适用数据类型非正态分布的数据,或存在非线性关系的数据。正态分布数据,或存在线性关系的数据。非正态分布的数据,尤其适用于样本量较小且存在平局的数据。一个二元分类变量和一个连续变量的数据。控制一个或多个其他变量时测量两变量之间关系的数据。适用于线性和非线性关系的数据。连续性数据,特别是需要评估因变量随自变量变化趋势时。各种类型的数据,尤其是高维或非线性关系的数据。
处理异常值的能力对异常值不敏感,异常值影响较小。对异常值敏感,异常值可能会显著影响相关系数。对异常值不敏感,比斯皮尔曼相关系数更稳健。与皮尔逊相关系数类似,对异常值较敏感。对异常值的敏感度取决于所用的方法,通常需要先对异常值进行处理。对异常值相对不敏感。对异常值敏感,通常需要事先进行数据清理。对异常值敏感,需要预处理数据。
计算方法根据数据的秩(rank)计算。使用变量的均值和标准差计算。通过计算数据对中一致和不一致的比例,使用公式: τ = ( C − D ) ( C + D + T x ) ( C + D + T y ) \tau = \frac{(C - D)}{\sqrt{(C + D + T_x)(C + D + T_y)}} τ=(C+D+Tx)(C+D+Ty) (CD)基于皮尔逊相关系数的公式,适用于二元分类数据。通过回归分析去除控制变量的影响后,计算残差之间的相关性。基于变量之间的欧氏距离,计算标准化的距离矩阵,并使用这些矩阵计算相关性。通过线性回归模型拟合数据,分析回归系数的显著性。基于信息论,计算变量之间的熵和条件熵,得到互信息量。
公式 r s = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} rs=1n(n21)6di2 r = ∑ ( x i − x ˉ ) ( y i − y ˉ ) ∑ ( x i − x ˉ ) 2 ∑ ( y i − y ˉ ) 2 r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} r=(xixˉ)2(yiyˉ)2 (xixˉ)(yiyˉ) τ = ( C − D ) ( C + D + T x ) ( C + D + T y ) \tau = \frac{(C - D)}{\sqrt{(C + D + T_x)(C + D + T_y)}} τ=(C+D+Tx)(C+D+Ty) (CD)类似于皮尔逊相关系数的计算方法,适用于一个二元分类变量。没有固定公式,依赖于使用的回归模型和控制变量。通过计算距离矩阵来衡量变量之间的依赖关系。线性回归模型: y = β 0 + β 1 x + ϵ y = \beta_0 + \beta_1 x + \epsilon y=β0+β1x+ϵ I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X; Y) = H(X) + H(Y) - H(X, Y) I(X;Y)=H(X)+H(Y)H(X,Y)
相关系数值范围-1 到 1-1 到 1-1 到 1-1 到 1-1 到 10 到 1-∞ 到 +∞0 到 ∞
适用场景- 数据非正态分布
- 数据中有异常值
- 两变量可能有非线性关系
- 数据接近正态分布
- 两变量存在线性关系
- 数据非正态分布
- 数据样本较小
- 存在平局情况
- 一个变量是二元分类变量
- 另一个变量是连续变量
- 需要控制其他变量的影响
- 分析剩余两个变量的相关性
- 数据可能存在复杂的依赖关系
- 适用于高维数据
- 需要评估变量之间的因果关系
- 预测和建模应用
- 适用于所有数据类型
- 适合高维和非线性关系的数据
分析结果解释判断两个变量之间的单调增加或减少关系(不需要是线性)。判断两个变量之间的线性增加或减少关系。判断两个变量之间的一致性关系,适用于样本较小的数据集。判断一个二元分类变量与一个连续变量之间的线性关系。判断在去除其他变量影响后,两变量之间的独立相关性。衡量变量之间的距离依赖关系,可以检测出线性和非线性关系。判断自变量与因变量之间的线性关系,并估计变化趋势。衡量变量之间的所有类型依赖关系,包括非线性和高维关系。
输出结果秩相关系数(Spearman’s rho),介于-1到1之间。线性相关系数(Pearson’s r),介于-1到1之间。肯德尔秩相关系数(Kendall’s Tau),介于-1到1之间。点双列相关系数(Point-Biserial r),介于-1到1之间。偏相关系数,介于-1到1之间。距离相关系数,值范围0到1。回归系数,表示自变量对因变量的影响程度。互信息量,非负值,表示两个变量之间的依赖关系的强度。

总结

选择相关性分析方法取决于数据的类型、分布特征、样本大小以及分析目标:

  • 数据为非正态分布或包含异常值时:考虑使用斯皮尔曼、肯德尔或距离相关分析。
  • 一个变量为二元分类,另一个为连续变量时:使用点双列相关分析。
  • 需要控制其他变量的影响时:使用偏相关分析。
  • 数据为高维或非线性关系时:使用互信息或距离相关分析。

http://www.ppmy.cn/news/1516394.html

相关文章

华为OD题目 csv格式的数据 字符串 用C没写出来

这题对于嵌入式mcu的人来说,太难为了。不想解了,烂摆。有心情再说把。 将一个csv格式的数据文件中包含有单元格引用的内容替换为对应单元格内容的实际值。 Comma seprated values(CSV)逗号分隔值,csv格式的数据文件使用…

nodemon学习(一)简介、安装、配置、使用

nodemon用来监视node.js应用程序中的任何更改并自动重启服务,非常适合用在开发环境中。以前,我们开发一个node后端服务时,每次更改文件,均需重启一下,服务才能生效。这使我们的开发效率降低了很多。nodemon的出现,可以…

Catf1ag CTF Crypto(六)

前言 Catf1agCTF 是一个面向所有CTF(Capture The Flag)爱好者的综合训练平台,尤其适合新手学习和提升技能 。该平台由catf1ag团队打造,拥有超过200个原创题目,题目设计注重知识点的掌握,旨在帮助新手掌握C…

ffmpeg.exe命令行常见应用

基本转换: ffmpeg -i input.mp4 output.avi将input.mp4文件转换为output.avi文件。 提取音频: ffmpeg -i input.mp4 -vn output.mp3从input.mp4文件中提取音频并保存为output.mp3文件。 视频剪辑: ffmpeg -i input.mp4 -ss 00:00:30 -t 00:…

深入探讨Java多线程

我的主页:2的n次方_ 1. 多线程的概念 多线程是指在同一个程序中同时执行多个线程的技术。线程是操作系统能够独立调度和执行的最小单位。在Java中,线程由Thread类来表示,所有的线程都是通过这个类或其子类来创建和控制的。通过合理的多线…

codetop标签动态规划大全C++讲解(上)!!动态规划刷穿地心!!学吐了家人们o(╥﹏╥)o

主要供自己回顾学习,会持续更新,题源codetop动态规划近半年 1.零钱兑换2.零钱兑换II3.面试题08.11.硬币4.单词拆分5.最长递增子序列6.最长递增子序列的个数7.得到山形数组的最少删除次数8.最长公共子序列9.最长重复子数组10.最长等差数列11.最大子数组和…

Docker数据卷使用手册

目录 目标 前言 概念 官方文档 匿名卷(Anonymous Volumes) 简介 案例 命名卷(Named Volumes) 简介 案例 目标 掌握Volume命令通过演示案例,理解数据卷种类与各自的用途。 前言 我们在很多网上教程上可以看到…

前端宝典十:webpack性能优化最佳实践

Webpack 内置了很多功能。 通常你可用如下经验去判断如何配置 Webpack: 想让源文件加入到构建流程中去被 Webpack 控制,配置 entry;想自定义输出文件的位置和名称,配置 output;想自定义寻找依赖模块时的策略&#xff…

云计算day31

⼀、Docker 1、Docker介绍.pdf 1、Docker 是什么? Docker 是⼀个开源的应⽤容器引擎,可以实现虚拟化,完全采⽤“沙 盒”机制,容器之间不会存在任何接⼝。 Docker 通过 Linux Container(容器)技术将任意…

如何在Docker中部署Eureka Server:容器化微服务注册中心

在现代微服务架构中,服务注册和发现是至关重要的。Eureka Server 是一个由 Netflix 开发的开源服务注册和发现工具,它允许微服务实例在运行时动态地注册和查询其他服务。将 Eureka Server 部署在 Docker 中可以提高其可移植性和可维护性,同时…

Django 后端架构开发:手机与邮箱验证码接入、腾讯云短信SDK和网易邮箱

Django 后端架构开发:手机与邮箱验证码接入、腾讯云短信SDK和网易邮箱接入 🌟 手机短信与邮箱短信验证码的应用场景 在现代应用中,短信和邮箱验证码是用户验证和安全管理的关键组成部分。它们广泛应用于注册、登录、找回密码等场景&#xf…

elasticsearch -- RestClient操作文档

RestClient操作文档 为了与索引库操作分离,我们再次参加一个测试类,做两件事情: 初始化RestHighLevelClient我们的酒店数据在数据库,需要利用IHotelService去查询,所以注入这个接口 package cn.itcast.hotel;import…

机器学习:opencv图像识别--图片专项

目录 前言 一、读取图片 1.安装opencv库 2.读取彩色图片 3.读取灰度图 二、RGB 1.RGB的概念 2.颜色通道: 3.图像表示 4.代码实现单通道图像 三、ROI 1.代码实现 四、图片打码 五、图片组合 六、图片缩放 总结 前言 OpenCV(Open Source C…

Nginx 丢弃指定响应头

如果想丢弃服务器响应回来的某个头,可以使用Nginx进行代理该服务器,再进行配置 Nginx中丢弃指定响应头 Nginx 中拦截某个响应并丢弃特定的响应头,可以使用 proxy_hide_header 指令。 修改 Nginx 配置 在您的 Nginx 配置文件中&#xff08…

WPF—DispatcherTimer定时器

WPF—DispatcherTimer定时器 WPF界面是没有timer控件的,Winform有。但是我们可以使用DispatcherTimer来实现定时器。 在WPF应用程序中,DispatcherTimer是一种常用的计时器工具,它可以在指定的时间间隔触发事件。以下是一个简单的使用DispatcherTimer的…

SpringBoot项目如何使用和打包本地第三方jar包

有时候我们引用了maven仓库不存在的第三方jar,项目打包后jar包里没有引用的jar,解决方法往下看。 一、目录介绍 SpringBoot项目通过idea打成jar包部署。 将项目打成jar包后,所有引用的jar都存在于BOOT-INF\lib下: 如果存在本地…

汽车冷却液温度传感器的作用与检测方法

汽车冷却系统中的关键部件之一是冷却液温度传感器,它的位置通常在发动机的缸体或水泵附近,与冷却液直接接触。该传感器的作用是监测发动机冷却液的温度,它采用负温度系数热敏电阻,这种电阻随温度升高而降低。当冷却液温度达到预定…

Jmeter 性能测试实战教程

一、性能测试流程 进行性能测试前,我们首先需要了解一下性能测试大致分为哪些流程,这样才能保证测试过程有序开展: 1、性能需求分析 了解哪些业务需要(一般都是用户量大的核心业务,比如登录,查询等功能&…

【AI学习】LLaMA模型的微调成本有几何?

在前面文章《LLaMA 系列模型的进化(二)》中提到了Stanford Alpaca模型。 Stanford Alpaca 基于LLaMA (7B) 进行微调,通过使用 Self-Instruct 方法借助大语言模型进行自动化的指令生成,Stanford Alpaca 生成了 52K 条指令遵循样例数…

leetcode滑动窗口问题

想成功先发疯,不顾一切向前冲。 第一种 定长滑动窗口 . - 力扣(LeetCode)1456.定长子串中的元音的最大数目. - 力扣(LeetCode) No.1 定长滑窗套路 我总结成三步:入-更新-出。 1. 入:下标为…