机器学习:皮尔逊相关系数——影评相关性分析案例

news/2024/11/30 7:53:53/

机器学习:皮尔逊相关系数——影评相关性分析案例

文章目录

  • 机器学习:皮尔逊相关系数——影评相关性分析案例
    • :rocket:1、皮尔逊相关系数概念及公式
    • :rocket:2、案例
      • 代码部分

皮尔逊(pearson)相关系数斯皮尔曼(spearman)相关系数肯德尔(kendall)相关系数并称为统计学三大相关系数。这里我们来谈一谈皮尔逊(pearson)相关系数的公式及应用

🚀1、皮尔逊相关系数概念及公式

在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间,0表示没有相关性。

公式:
ρ X , Y = c o v ( X , y ) σ X σ Y = E ( ( X − μ x ) ( Y − μ Y ) ) σ X σ Y = E ( X Y ) − E ( X ) E ( Y ) E ( X 2 ) − E 2 ( X ) E ( Y 2 ) − E 2 ( Y ) \rho_{X,Y}=\frac{cov(X,y)}{\sigma_X\sigma_Y}=\frac{E((X-\mu_x)(Y-\mu_Y))}{\sigma_X\sigma_Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}{\sqrt{E(Y^2)-E^2(Y)}}} ρX,Y=σXσYcov(X,y)=σXσYE((Xμx)(YμY))=E(X2)E2(X) E(Y2)E2(Y) E(XY)E(X)E(Y)
通过计算协方差与标准差的商,来得出相关系数。小于0时为负相关,大于0时为正相关。

🚀2、案例

我随便写了一个影评数据集做demo

老炮儿唐人街探案星球大战寻龙诀神探夏洛克小门神
3.510000
2.53.533.52.53
33.51.5533.5
2.53.503.540
3.524.503.52
342332
4.51.5353.50

代码部分

*首先引入pandas来让我的数据处理变得简单*

import pandas
import pandas as pd

*随后引入scipy库中封装好的皮尔森系数方法*

from scipy.stats import pearsonr

*计算皮尔逊相关系数矩阵*

def calculate_pearson_correlation(data):data = pandas.DataFrame(data)correlations = data.corr(method='pearson')return correlations
def GetPvalue_Pearson(x,y):return pearsonr(x,y)[1]

*返回相关系数检验P值矩阵*

def calculate_person_correlation_P(data):data = pd.DataFrame(data)return data.corr(method=GetPvalue_Pearson)

*读取文件,由于有中文表头,所以设置gbk编码*

*最后输出相关系数矩阵*

data = pd.read_csv("movie_sperman.csv",encoding='gbk')
res = calculate_pearson_correlation(data)
res

image-20230415142314700

plt.rcParams['font.sans-serif'] = 'Microsoft Yahei'
ax = plt.subplots(figsize=(20, 16))#调整画布大小
ax = sns.heatmap(res, vmax=.8, square=True, annot=True)#画热力图   annot=True 显示系数

image-20230415142156351

由于是相关性矩阵,所以我绘制了热力图。

可以看到颜色越深,相关性越大。

例如,唐人街探案与老炮的影评数据相关性为-0.77呈负相关,所以可以简单地推出喜欢唐人街探案的人不喜欢老炮。(非真实数据结论)


http://www.ppmy.cn/news/47568.html

相关文章

TypeScript泛型类型和接口

本节课我们来开始了解 TypeScript 中泛型类型的概念和接口使用。 一.泛型类型 1. 前面,我们通过泛型变量的形式来存储调用方的类型从而进行检查; 2. 而泛型也可以作为类型的方式存在,理解这一点,先了解下函数的…

【Vue】Vue-route路由

Vue-router官网 由vue-router模块控制,需要额外安装依赖。参考官网 npm install vue-router --save组成 router-link:路由链接,跳转至路由视图,展示指定路由组件信息router-view:路由视图,展示路由组件信…

SLAM 十四讲(第一版)各章方法总结与理解

SLAM 十四讲(第一版)各章方法总结与理解 总结十四讲中各章各步骤提到的各种方法,以及具体方法在哪个 c 库中可以调用。目的在于能更直观地了解 slam 过程各步骤到底在做什么,以及是怎么联系在一起的。 2. 初识 SLAM SLAM&#x…

Redis---测试配置及添加slave主机

一、测试集群功能 测试高可用 1、停止 master 主机的 redis 服务 master 宕机后对应的 slave 自动被选举为 master,原 master 启动后,会自动配置为当前 master 的 slave 2、检测集群 mgm68管理主机,查看集群信息 主服务器地址和端口(ID值…

python笔记:datetime

处理日期和时间 1 常量 MINYEAR datetime允许的最小年份 MAXYEAR datetime允许的最大年份 2 数据类型 datetime.date带有属性year,month,daydatetime.time带有属性hour,minute,second,microsecond,tzinfodatetime.datetime带有属性year,month,day,hour,minute,second,…

22勤于思考:gRPC都有哪些优势和不足?

如果你能从专栏的开篇词开始读到这篇文章并且能够在过程中认真思考,那么我相信你目前已经能够对gRPC有了较为充分了解。在专栏的最后几节中,我们抽出一篇文章。来探讨一下gRPC有哪些优势和不足,因为只有这样我们才能取其精华,去其糟粕,学习gRPC框架设计的优点,还能反观出…

Nacos服务端健康检查-篇五

Nacos服务端健康检查-篇五 🕐Nacos 客户端服务注册源码分析-篇一 🕑Nacos 客户端服务注册源码分析-篇二 🕒Nacos 客户端服务注册源码分析-篇三 🕓Nacos 服务端服务注册源码分析-篇四 上篇分析l服务端的注册服务的整个流程&…

大四的告诫

👂 LOCK OUT - $atori Zoom/KALONO - 单曲 - 网易云音乐 👂 喝了一口星光酒(我只想爱爱爱爱你一万年) - 木小雅 - 单曲 - 网易云音乐 其实不是很希望这篇文章火,不然就更卷了。。 从大一开始,每天10小时…