【6】数据分析检测(DataFrame 1)

ops/2024/12/15 16:22:37/

学习目标3

昨天,我们学习了Series。

而Pandas的另一种数据类型:DataFrame,在许多特性上和Series有相似之处。

今天,我们将学习DataFrame的相关知识:

1. DataFrame的概念

2. 构造一个DataFrame

3. DataFrame的常用属性

4. DataFrame的轴

DataFrame

DataFrame

数据框

定义

DataFrame,中文叫数据框。

是pandas模块最常用的数据类型,是一个二维的矩阵数据表。

非常便捷地存放数据。

隐喻

DataFrame,就像是一个表格,可以通过行和列,可以定位一个值。

那DataFrame和Series之间有什么关系呢?
在某种程度上,可认为DataFrame是“具有相同index的Series的集合”

右侧是一个DataFrame,它由3部分组成:

既有行索引(index),可以用来定位到具体的某一行。

也有列索引(columns),用来定位到具体的某一列。

通过index和columns,可以定位到一个值,能快速进行数据的筛选和定位。

因此,DataFrame的同一列中,值的数据类型相同。

但是,列和列之间的数据类型可以不同。

 

      

同样的,和Series类似,DataFrame的行索引index是可以选择性定义的。如果没有定义index,index就会默认从0开始生成。

总结:

DataFrame

DataFrame,中文叫做数据框,是pandas模块最常用的数据类型,是一个二维的矩阵数据表。

DataFrame构造函数

这几行代码,构造了一个DataFrame。
第1行,导入pandas模块。
第3行,定义了一个字典。
第4行,定义了一个列表。
第6行,使用DataFrame构造函数创建了一个DataFrame,并赋值给了变量df。
第8行,将这个创建的DataFrame输出。

import pandas as pd

data= {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]}

city= ['GD','JS','SD','ZJ']

df= pd.DataFrame(data, index=city)

print(df)

pd.DataFrame( )

通过调用的pandas模块里的DataFrame()函数,可以构造一个DataFrame。

import pandas as pd

data= {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]}

city= ['GD','JS','SD','ZJ']

df= pd.DataFrame(data, index=city)

print(df)

第一个常用参数:data

pd.DataFrame()中,参数data表示需要传入的数据,可以是字典,列表等。

示例中data是一个字典,传入pd.DataFrame()函数;

字典的keys,会成为DataFrame的列索引columns;

字典的values是列表,列表中的值,会成为DataFrame的值values。

注意:若不传入数据,会生成一个空的DataFrame。

import pandas as pd

data= {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]}

city= ['GD','JS','SD','ZJ']

df= pd.DataFrame(data, index=city)

print(df)

需要特别注意的是,在构造DataFrame时,传入的字典必须是右侧所示的结构:

 

字典的keys是对象;

字典的values是对应的列表,并且每个列表中的元素个数相同。

在构造过程中:

字典中的keys,就成为了DataFrame中的列索引columns。

字典中的values,就成为了DataFrame中的值values

第二个常用参数:index

参数index用于定义DataFrame的行索引(index)。
只需要将一个列表赋值给参数index。
示例中,我们将定义的列表city赋值给参数index。
city中的值,会成为DataFrame的index。
若不传入参数index,那么生成的DataFrame的index就会默认从0开始生成。

import pandas as pd

data = {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]}

city = ['GD','JS','SD','ZJ']

df = pd.DataFrame(data, index=city)

print(df)

赋值的变量

将pd.DataFrame()函数创建的DataFrame,赋值给了df这个变量。
将df输出可以看到,它是一个DataFrame对象:
列索引(columns)是由字典data的的keys组成;
值(values)是由字典data的的值组成;
行索引(index)是由列表city的值组成。

import pandas as pd

data = {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]}

city = ['GD','JS','SD','ZJ']

df = pd.DataFrame(data, index=city)

print(df)

总结:


http://www.ppmy.cn/ops/142152.html

相关文章

革新医疗器械生产:MR30分布式IO模块引领智能制造新纪元

在当今快速发展的医疗科技领域,高效、精准与安全性是衡量医疗器械生产线的金标准。随着工业4.0时代的到来,分布式IO(Input/Output,输入/输出)模块以其灵活、高效、可靠的特点,正逐步成为医疗器械生产线智能…

神经网络基础-初识神经网络

人工神经网络( Artificial Neural Network, 简写为ANN)也简称为神经网络(NN),是一种模仿生物神经网络结构和功能的计算模型。人脑可以看做是一个生物神经网络,由众多的神经元连接而成。各个神经…

如何绕过IP禁令

网站、游戏和应用程序可以屏蔽特定IP地址,从而阻止使用该IP地址的任何人访问其服务。这称为IP禁令。管理员可以出于多种原因(例如发出过多请求或可疑活动)屏蔽IP地址。但是,这些禁令会使收集数据或访问在线内容变得更加困难。 一…

[Excel]如何由銷售資料篩選出客戶的回購週期?

[Excel]如何由销售资料筛选出回购周期数据 近期與行銷同仁討論如何借重RFM模型分析既有的銷售資料,RFM模型是一種常用的行銷分析工具,其通過評估客戶的購買行為來識別並細分客戶群,其三個關鍵指標(Recency, Frequency, Monetary)的首位字母組…

【AI知识】有监督学习之回归任务(附线性回归代码及可视化)

1. 回归的基本概念 在机器学习的有监督学习中,回归(Regression)是一种常见的任务,它的目标是通过观察数据来建立一个模型,用一个或多个自变量来预测因变量的值。 回归分析通常用于: a.预测,基于…

Mybatis使用步骤

MyBatis 框架使用流程详解 MyBatis 是一款优秀的持久层框架,它支持定制化 SQL、存储过程以及高级映射。MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集的工作,使得开发者可以更专注于 SQL 语句本身。以下是使用 MyBatis 框架的详细步…

win服务器的架设、windows server 2012 R2 系统的下载与安装使用

文章目录 windows server 2012 R2 系统的下载与安装使用1 windows server 2012 的下载2 打开 VMware 虚拟机软件(1)新建虚拟机(2)设置虚拟机(3)打开虚拟机 windows server 2012(4)进…

React 入门(超详细)

目录 前言:一、React 简介 1. 什么是 React2. React 的特点3. React 高效的原因4. React 官网5. React的主要原理6. Facebook为什么要建造React? 二、React 的基本使用 1. 基础代码2. 效果3. 相关 js 库4. 创建虚拟DOM的两种方式5. 虚拟DOM与真实DOM6. 虚拟DOM与真…