【python】如何在 Python 中创建相关矩阵

news/2024/11/8 18:30:29/

目录

一、说明

二、相关理论

2.1 何为相关

2.2 相关的前提

2.3  Correlation Matrix是个啥?

2.4 皮尔逊相关系数

三、Python演示如何创建相关矩阵

四、数据可视化观察

五、后记


一、说明

        本教程介绍如何在 Python 中创建和解释相关矩阵。然而,创建之前还是需要一些条件的,首先要检验数据的相关性。如果明显不相关,相关矩阵没有意义。其次,相关性的解释,相关的展现也是一个重要话题。

二、相关理论

2.1 何为相关

        1 无论是自相关还是互相关,都是描述的几个列向量之间的事情,列向量组合起来就变成了矩阵。

        2 自相关函数指的是列向量 的 相关系数 构成的函数,对于离散序列,自相关函数的变量就是序列的时间差,也就是E [x (k)x (k-t)],当t=0时,求的就是均方值。

        3 相关矩阵出来的就是矩阵 的各个列之间的互相关系数,对角线是样本序列的方差,其他是各个样本序列的 协方差 ,也就是对应时刻的数据乘积的均值。

2.2 相关的前提

        相关分析前,首先通过观察散点图了解变量间大致的关系情况。

        如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。

2.3  Correlation Matrix是个啥?

        Correlation Matrix是指将多个变量之间的相关系数放在一个表格中展示,并以矩阵(Matrix)形式呈现的一种统计工具。在Correlation Matrix中,每个变量都与其他所有变量之间的相关系数都呈现出来,这有助于我们了解变量之间的相关关系。Correlation Matrix通常用于探索性数据分析中,可以通过可视化或数值方式展示变量之间的相关性,从而帮助我们了解变量之间的关系,进而做出合理的决策。

2.4 皮尔逊相关系数

        量化两个变量之间关系的一种方法是使用皮尔逊相关系数,它是两个变量之间线性关联的度量。它衡量了两个变量之间的线性关系强度和方向,它的值介于 -1 和 1 之间,其中:

  • -1 表示完全负线性相关。
  • 0 表示没有线性相关。
  • 1 表示完全正线性相关。

        相关系数离零越远,两个变量之间的相关性越强。

        但在某些情况下,我们想要了解不仅仅是一对变量之间的相关性。在这些情况下,我们可以创建一个相关矩阵,它是一个方表,显示多个变量成对组合之间的相关系数。

三、Python演示如何创建相关矩阵

        使用以下步骤在 Python 中创建相关矩阵。下列以某个篮球对为例生成一组比赛数据:助攻、篮板、得分的关系,以8场篮球的比赛统计说事。

Step 1: 先生成数据集.

import pandas as pddata = {'助攻次数': [4, 5, 5, 6, 7, 8, 8, 10],'篮板球': [12, 14, 13, 7, 8, 8, 9, 13],'得分': [22, 24, 26, 26, 29, 32, 20, 14]}df = pd.DataFrame(data, columns=['assists','rebounds','points'])

        以上用字典生成一个pd.DataFrame,表格如下: 

dfassist  rebounds  points
0	4	12	22
1	5	14	24
2	5	13	26
3	6	7	26
4	7	8	29
5	8	8	32
6	8	9	20
7	10	13	14

Step 2: 生成相关矩阵.

#create correlation matrix
df.corr()assists   rebounds     points
assists        1.000000  -0.244861  -0.329573
rebounds      -0.244861   1.000000  -0.522092
points        -0.329573  -0.522092   1.000000#create same correlation matrix with coefficients rounded to 3 decimals 
df.corr().round(3)assists	rebounds  points
assists	         1.000	  -0.245  -0.330
rebounds	-0.245	   1.000  -0.522
points	        -0.330	  -0.522   1.000

Step 3:  解释相关矩阵

        沿表对角线的相关系数均等于 1,因为每个变量与其自身完全相关。所有其他相关系数表示变量的不同成对组合之间的相关性。例如:

  • 助攻和篮板之间的相关系数为-0.245。
  • 助攻数和得分之间的相关系数为-0.330。
  • 篮板数和得分之间的相关系数为-0.522。

四、数据可视化观察

        数据科学最重要的技能之一就是数据可视化,在数据建模过程中,我们比较关心数据之间的相关性,而观察数据相关性我们使用最多的技能之一就是相关性矩阵。数据相关性矩阵可以让我们对数据之间的关联关系有更为直观的理解。这里简单汇总一下使用Python绘制传统相关性矩阵/下三角相关性矩阵/重点相关性矩阵的代码。

        3种常见方式:

  • 1. 简单直接 - df.corr() 方法;
  • 2. 常见好用 - heatmap 热力图;
  • 3. 形象且有规律 - 正负相关关系分离的条形图。

Step 4: 可视化相关矩阵(可选)。

        您可以使用 pandas 中可用的样式选项来可视化相关矩阵:

corr = df.corr()
corr.style.background_gradient(cmap='coolwarm')

        您还可以更改 cmap 的参数以生成具有不同颜色的相关矩阵。

corr = df.corr()
corr.style.background_gradient(cmap='RdYlGn')

corr = df.corr()
corr.style.background_gradient(cmap='bwr')

corr = df.corr()
corr.style.background_gradient(cmap='PuOr')

五、后记

        相关一般是和其它统计手段同时应用的。我们本文只讲相关矩阵生成部分,但不分析数据,因此,如何用python生成才是重点。


http://www.ppmy.cn/news/514795.html

相关文章

M78

首先我们发现了一个漏洞 这里读入0x199大小的buf,而下面的check函把buf的内容付给dest,而dest大小显然溢出了 但是我们发现这个题目有字符串长度限制必须等于7,我们要溢出至少需要34个字节,这就是这题的主要难点 strlen是一个统计…

与吉凯恩GKN建立EDI连接需要掌握哪些信息?

项目背景 GKN集团(吉凯恩集团)创建于1759年,已有260年的历史。主要业务有大型民航客机和运输机结构件,汽车传动系统,非高速公路用工作车辆和特种车辆,农用机械,粉末冶金,新型合金粉…

伊士曼将在法国建立分子塑料回收设施;吉凯恩粉末冶金公司任命新任首席执行官 | 能动...

石油和化工 Celgard和Farasis达成和解。Polypore International, LP旗下子公司Celgard, LLC(以下简称“Celgard”)就其在美国加利福尼亚州北区联邦地区法院(NDCA)针对多个Farasis被告提起的专利诉讼成功达成和解。Celgard及此项诉讼中列出的所有Farasis实体已就Celgard和Farasi…

凯恩斯显灵啦!

昨天到超市买东西,竟然花了1000块,感觉跟以前花300块买到的东西差不多,难道物价真的涨了那么多?排队结帐,看到账单的时候,吓了一跳,刹那间,想到了凯恩斯的一句话: 通过连…

PASCAL语言创始人:尼克劳斯.威茨

来自:CSDN 学过计算机的人大都知道“算法数据结构程序”这一著名公式,提出该公式的正是1984年的图灵奖获得者,瑞士计算机科学家尼克劳斯•威茨(Niklaus Wirth)。到目前为止,他是获得图灵奖殊荣的惟一瑞士学者。 威茨于1934年2月…

文学见识(含图灵奖历届指引)--目录

手动点击,无须翻阅:) 64、2020年图灵奖Jeffrey David Ullman和Alfred Vaino Aho简介 63、2019年图灵奖Edwin E. Catmull和Patrick M. Hanrahan简介 62、2018年图灵奖–约书亚本吉奥、杰弗里埃弗里斯特辛顿和Yann LeCun简介 61、2017年图灵奖–大卫帕特森和约翰轩尼诗…

书单推荐2020-07-06

书单推荐 1、人类思想史上第一个乌托邦方案——柏拉图的《理想国》 2、剥削阶级政治学体系的发端——亚里士多德的《政治学》 3、印度古代法律的珍贵文献——《摩奴法典》 4、钦定罗马私法教科书——查士丁尼的《法学总论》 5、首先摆脱神学的政治学——马基雅维里的《君主论》…

凯恩斯主义(扩张性财政政策)的深远影响--美国股市百年(二)

作者 | 杨丽敏 编辑 | Dave 董雯雪 视觉 | 任染 这是 「禾穗HERS女性商学院」的第 061 篇原创 由于疫情对经济的深远影响,全球开始新一轮财政扩张,全面开启量化宽松模式。 今天早晨看到最新消息,美联储开启无限量QE模式。通过各种金融…