机器学习数学基础:32.斯皮尔曼等级相关

embedded/2025/2/27 0:57:32/

斯皮尔曼等级相关教程

一、定义与原理

斯皮尔曼等级相关系数(Spearman’s rank - correlation coefficient),常用 ρ \rho ρ表示,是一种非参数统计量,用于衡量两个变量的等级之间的关联程度。它基于变量的秩次(排序后的位置)进行计算,不依赖于数据的分布形态,能有效处理非线性关系和非数值型的有序数据。取值范围在 − 1 -1 1 1 1 1之间, ρ = 1 \rho \ = 1 ρ =1表示完全正相关,即一个变量的等级增加时,另一个变量的等级也严格增加; ρ = − 1 \rho \ = - 1 ρ =1表示完全负相关; ρ = 0 \rho \ = 0 ρ =0表示不存在等级相关关系。

二、适用场景

  • 数据为定序数据:如比赛名次、成绩等级、满意度排序等,例如分析不同餐厅在美食评选中的排名和顾客推荐率排名的关系。
  • 数据分布未知或不满足正态分布:当无法确定数据是否服从正态分布,或者明确知道数据不服从正态分布时,斯皮尔曼等级相关系数是很好的选择。
  • 变量间为非线性关系:只要两个变量之间存在单调变化趋势(不一定是线性),都可以用它来衡量相关性,比如植物生长时间和植株高度的关系(可能是先慢后快再趋于平稳的非线性增长) 。

三、计算步骤

斯皮尔曼等级相关系数计算

  1. 数据排序:分别对两个变量的数据进行排序,确定每个数据在各自变量中的等级。若存在相同数值,通常取平均等级。例如,有三个数据 3 3 3 3 3 3 5 5 5,它们的等级分别为 1.5 1.5 1.5 ( 1 + 2 ) ÷ 2 (1 + 2)\div2 (1+2)÷2), 1.5 1.5 1.5 3 3 3
  2. 计算等级差:对于每一对数据,计算它们的等级差 d i d_{i} di
  3. 计算等级差的平方:得到 d i 2 d_{i}^{2} di2,并对所有的 d i 2 d_{i}^{2} di2求和,得到 ∑ d i 2 \sum d_{i}^{2} di2
  4. 计算相关系数:根据公式 ρ = 1 − 6 ∑ d i 2 n 3 − n \rho \ = 1-\frac{6\sum d_{i}^{2}}{n^{3}-n} ρ =1n3n6di2 n n n为样本数量)计算斯皮尔曼等级相关系数。

t检验步骤

  1. 建立假设
    • 原假设 H 0 H_0 H0:总体的斯皮尔曼等级相关系数 ρ = 0 \rho \ = 0 ρ =0,即总体中两个变量之间不存在等级相关关系。
    • 备择假设 H 1 H_1 H1:总体的斯皮尔曼等级相关系数 ρ ≠ 0 \rho\neq 0 ρ=0,即总体中两个变量之间存在等级相关关系。
  2. 计算t统计量:在斯皮尔曼等级相关的t检验中,可使用公式 t = r R n − 2 1 − r R 2 t\ =\frac{r_{R}\sqrt{n - 2}}{\sqrt{1 - r_{R}^{2}}} t =1rR2 rRn2 (这里 r R r_{R} rR表示计算得到的斯皮尔曼等级相关系数, n n n为样本数量)。此公式与积差相关系数(如Pearson相关系数)检验中t统计量的计算形式相同,这样做是因为在一定条件下,基于等级数据计算出的相关系数的抽样分布近似于t分布。
  3. 确定临界值:根据给定的显著性水平 α \alpha α(常用的有 0.05 0.05 0.05 0.01 0.01 0.01等)和自由度 d f = n − 2 df \ = n - 2 df =n2,查阅 t t t分布表得到临界值 t α / 2 ( n − 2 ) t_{\alpha/2}(n - 2) tα/2(n2)
  4. 做出决策
    • 如果 ∣ t ∣ > t α / 2 ( n − 2 ) \vert t\vert>t_{\alpha/2}(n - 2) t>tα/2(n2),则拒绝原假设 H 0 H_0 H0,认为总体中两个变量之间存在等级相关关系。
    • 如果 ∣ t ∣ ≤ t α / 2 ( n − 2 ) \vert t\vert\leq t_{\alpha/2}(n - 2) ttα/2(n2),则不能拒绝原假设 H 0 H_0 H0,即没有足够证据表明总体中两个变量之间存在等级相关关系。

四、实例演示

斯皮尔曼等级相关系数计算实例

研究 6 6 6名学生的语文成绩排名和英语成绩排名的相关性,数据如下:

学生编号语文成绩排名 X X X英语成绩排名 Y Y Y d i d_{i} di(等级差) d i 2 d_{i}^{2} di2(等级差的平方)
123-11
24224
31100
434-11
55500
66600

计算 ∑ d i 2 = 1 + 4 + 0 + 1 + 0 + 0 = 6 \sum d_{i}^{2}\ =1 + 4+0 + 1+0 + 0 \ = 6 di2 =1+4+0+1+0+0 =6 n = 6 n \ = 6 n =6
代入公式可得:
ρ = 1 − 6 × 6 6 3 − 6 = 1 − 36 216 − 6 = 1 − 36 210 ≈ 0.83 \begin{align*} \rho&\ =1-\frac{6\times6}{6^{3}-6}\\ &\ =1-\frac{36}{216 - 6}\\ &\ =1-\frac{36}{210}\\ &\approx0.83 \end{align*} ρ =16366×6 =1216636 =1210360.83
结果表明,这 6 6 6名学生的语文和英语成绩排名有较强的正相关关系。

t检验实例

针对上述例子,假设显著性水平 α = 0.05 \alpha \ = 0.05 α =0.05

  1. 已知 r R ≈ 0.83 r_{R} \approx 0.83 rR0.83 n = 6 n \ = 6 n =6,计算 t t t统计量:
    t = 0.83 6 − 2 1 − 0.8 3 2 = 0.83 × 2 1 − 0.6889 = 1.66 0.3111 ≈ 2.97 \begin{align*} t&\ =\frac{0.83\sqrt{6 - 2}}{\sqrt{1 - 0.83^{2}}}\\ &\ =\frac{0.83\times2}{\sqrt{1 - 0.6889}}\\ &\ =\frac{1.66}{\sqrt{0.3111}}\\ &\approx2.97 \end{align*} t =10.832 0.8362  =10.6889 0.83×2 =0.3111 1.662.97
  2. 自由度 d f = n − 2 = 6 − 2 = 4 df \ = n - 2 \ = 6 - 2 \ = 4 df =n2 =62 =4,查 t t t分布表得 t 0.025 ( 4 ) = 2.776 t_{0.025}(4)\ = 2.776 t0.025(4) =2.776
  3. 因为 ∣ 2.97 ∣ > 2.776 \vert 2.97\vert> 2.776 ∣2.97∣>2.776,所以拒绝原假设 H 0 H_0 H0,可以认为在总体中,学生的语文成绩排名和英语成绩排名之间存在等级相关关系。

五、注意事项

  • 只反映等级相关:它衡量的是变量等级之间的关联,并非原始数据值之间的精确关系。
  • 对单调关系敏感:只能检测单调的相关关系,若变量间关系复杂非单调,可能无法准确反映相关性。
  • 样本数量影响:样本数量过少可能导致结果不稳定,一般建议样本量 n ≥ 10 n\geq 10 n10
  • t检验前提:虽然斯皮尔曼等级相关的t检验形式与积差相关类似,但在使用时要注意其基于等级数据的特点,以及样本数据对近似t分布条件的满足程度。当样本量较小时,t检验结果的准确性可能会受到一定影响。

http://www.ppmy.cn/embedded/167407.html

相关文章

力扣-动态规划-63 不同路径Ⅱ

思路 dp数组定义:到下标为i, j 的地方共有dp[i][j]条路径递推公式:在当前节点不是障碍物时,dp[i][j] dp[i][j-1] dp[i-1][j],否则就是为0dp数组初始化:dp[0][0]初始化也需要做判断遍历顺序:自…

python制图之小提琴图

提琴图(Violin Plot)是一种结合了箱线图(Box Plot)和核密度估计(Kernel Density Estimation, KDE)的可视化工具,用于展示数据的分布情况和概率密度。它在数据可视化中具有独特的作用.本节我们学…

网络安全服务实施流程管理 网络安全服务体系

一、安全服务 由系统提供的,并能确保系统或数据传输足够安全的服务 安全服务实现了安全策略,而安全机制实现了安全服务 (1)认证 确保通信实体就是它所声称的那个实体。认证服务与确保通信是密切相关的。 对等实体认证&#xf…

分布式之分布式锁

目录 分布式锁 分布式锁 分布式锁是一种用于在分布式系统中控制多个进程或线程对共享资源进行访问的机制,以下是对它的详细介绍: 作用:在分布式系统中,通常会有多个进程或线程可能同时访问共享资源,如数据库、文件系统等。分布式锁可以确保在同一时间只有一个进程或线程…

flowable-ui 的会签功能实现

场景:在进行智慧保时通开发时,有个协作合同入围功能,这个功能的流程图里有个评审小组,这个评审小组就需要进行会签操作,会签完成后,需要依据是否有不通过的情况选择下一步走的流程 思考步骤: 首…

pdf加自定义水印

获取图片水印 ApiOperation(value "获取图片水印")PostMapping("/postImageMark")ApiImplicitParams({ApiImplicitParam(paramType "header", dataType "string", name "Authorization", value "访问凭证",…

【架构】事件驱动架构(Event - Driven Architecture,EDA)

一、事件驱动架构理论基础 事件驱动架构(Event - Driven Architecture,EDA)是一种软件设计范式,事件驱动的体系结构由生成事件流、侦听这些事件的事件使用者以及将事件从生成者传输到使用者的事件通道组成。 在事件驱动架构中,系统的行为由事件触发。事件可几乎实时发送,…

2025年02月21日Github流行趋势

项目名称:source-sdk-2013 项目地址url:https://github.com/ValveSoftware/source-sdk-2013项目语言:C历史star数:7343今日star数:929项目维护者:JoeLudwig, jorgenpt, narendraumate, sortie, alanedwarde…