Python 数据分析— Pandas 基本操作(上)

news/2024/9/17 1:38:03/ 标签: python, 数据分析, pandas, excel

文章目录

  • 学习内容:
    • 一、Series 创建及操作
    • 二、DataFram 的创建与操作
    • 三、Pandas 的读写操作
    • 四、选择指定行列数据


学习内容:

一、Series 创建及操作

** Series : Pandas 的一种数据结构形式,可理解为含有索引的一维数组。**
**(一)创建 Series ** pd.Series(数据 [, index=自定义索引(默认为0-N), copy=Flase默认 | True ->(当copy=False时,如果原始数据是np.array时,Series 值的更改为改变原数组对应元素)])
1. 通过列表或数组创建

python">import pandas as pd
list_a = range(10,13)
#list_a = np.arange(10,13)
pd.Series(data=list_a)
#输出:	0    10
#		1    11
#		2    12
#		dtype: int64
pd.Series(list_a, index=['a', 'b', 'c']) # 指定索引数必须与元素相等
#输出:	a    10
#		b    11
#		c    12
#		dtype: int64

2. 通过字典创建索引

python">dict_a = {'d': 1, 'e': 2, 'f': 3}
pd.Series(dict_a)
#输出:	d    1
#		e    2
#		f    3
#		dtype: int64
pd.Series(dict_a, index=['e', 'f', 'g']) #当指定索引与字典键相同时,值为字典值;字典无时,值为NaN
#输出:	e    2.0
#		f    3.0
#		g    NaN
#		dtype: float64

(二)Series 相关操作
1. 获取索引或值

python">dict_a = {'d': 1, 'e': 2, 'f': 3}
s_a = pd.Series(dict_a)
#1.获取索引
s_a.index # 返回 Index(['d', 'e', 'f'], dtype='object')
#2.获取数据
s_a.values # 返回 array([1, 2, 3])

2. 与整数加、减、乘、除
计算方法为: 各项分别与整数进行对应运算,返回新Series

python">s_x = pd.Series([10,11,12])
s_x + 5
#返回:	0    15
#		1    16
#		2    17
#		dtype: int64

3. Series 之间进行加、减、乘、除
计算方法为: 同索引号元素进行对应运算,差异索引返回NaN

python">s_A = pd.Series([1,2,3],index = ['a','b','c'])
s_B = pd.Series([4,5,6],index = ['b','c','d'])
s_A * s_B
#返回:	a    0.5
#		b    1.0
#		c    1.5
#		d    2.0
#		e    2.5
#		dtype: float64

4. 按条件筛选

python">a = range(0, 50)
s_a = pd.Series(a)
s_a > 40 # 将每个值与40比较,大于为真,小于为假
#输出举例:
#0     False
#……
#40    False
#41    True
#……#输出符合条件的数值
s_a[s_a > 40].values
#输出:array([41, 42, 43, 44, 45, 46, 47, 48, 49])
s_a[s_a%7 == 0].values
#输出:array([ 0,  7, 14, 21, 28, 35, 42, 49])

二、DataFram 的创建与操作

DataFram: Pandas 的一种数据结构形式,类似于表格,由若干个具有共同索引的 Series 组成,每个Series还有列索引。
DataFram 示例:

python">	a	b	c
d	1	2	3
e	4	5	6
f	7	8	9

**( 一)创建 DataFrame ** pd.DataFrame(data数据=数组 | 字典 [, index行索引, columns列索引])
1. 通过数组创建

python">arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
pd.DataFrame(arr) #未指定索引,默认用从0开始的序列
'''输出:0	1	2
0	1	2	3
1	4	5	6
2	7	8	9'''
pd.DataFrame(arr, columns=['a','b','c'], index=['d','e','f']) #指定行列索引
'''输出:a	b	c
d	1	2	3
e	4	5	6
f	7	8	9'''

2. 通过字典创建

python">d = {'col1': [1, 2], 'col2': [3, 4]}
pd.DataFrame(data=d)
'''输出:col1	col2
0	1	3
1	2	4'''

(二)常用操作
1. 查看头数据(head(n=前n行,默认为5))

python">df = pd.DataFrame({'col1':range(10)})
'''df结构:col1
0	0
1	1
2	2
……
9	9'''
df.head() #查看前5行
'''输出:col1
0	0
1	1
2	2
3	3
4	4'''
df.head(3) #查看前3行
'''输出:
col1
0	0
1	1
2	2'''

2. 查看尾数据(tail(n))用法同 head

python">df = pd.DataFrame({'col1':range(10)})
df.tail(2) #查看后两行
'''输出:col1
8	8
9	9'''

3. 查看数据结构和存储信息(info()

python">dict1={'品名':['矿泉水','纸巾','毛巾'],'单价':[2,1,15],'数量':[100,150,30],'总价':[200,150,450]}
df_商品 = pd.DataFrame(dict1)
df_商品.info()
'''输出:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):#   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 0   品名      3 non-null      object1   单价      3 non-null      int64 2   数量      3 non-null      int64 3   总价      3 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 224.0+ bytes'''

4. 查看数据按列统计信息(describe())

python">df_商品.describe()
'''输出:单价		数量			总价
count	3.00000	3.000000	3.000000
mean	6.00000	93.333333	266.666667
std		7.81025	60.277138	160.727513
min		1.00000	30.000000	150.000000
25%		1.50000	65.000000	175.000000
50%		2.00000	100.000000	200.000000
75%		8.50000	125.000000	325.000000
max		15.00000	150.000000	450.000000'''

5. 查看每列:均值(mean())、中位数(median())、最大值(max())、最小值(min())、和(sum())

python">df_商品.mean()
'''输出:
单价      6.000000
数量     93.333333
总价    266.666667
dtype: float64'''

6. 数据排序:
按行索引排序(sort_index(axis=0或’index’行索引 | 1或’colunms’列索引))

python">df_商品.sort_index(axis=0) # 按行索引排序

按列索引排序(sort_values(by=列索引 [, ascending=True升序 | False降序]))

python">df_商品.sort_values('数量') # 按数量升序排序
'''输出:品名		单价	数量	总价
2	毛巾		15	30	450
0	矿泉水	2	100	200
1	纸巾		1	150	150'''

7. 数据转置(T)

python">df_商品.T
'''输出:0		1	2
品名	矿泉水	纸巾	毛巾
单价	2		1	15
数量	100		150	30
总价	200		150	450'''

8. 获取行索引(index)、列索引(columns)

python">df_商品.columns
#输出: Index(['品名', '单价', '数量', '总价'], dtype='object')

(三) DataFrame 与 Series 间的转化
1. DataFrame 转 Series

python">dict1={'品名':['矿泉水','纸巾','毛巾'],'单价':[2,1,15],'数量':[100,150,30],'总价':[200,150,450]}
df_商品 = pd.DataFrame(dict1)
df_商品['单价']
'''输出:
0     2
1     1
2    15
Name: 单价, dtype: int64'''
type(df_商品['单价'])
#输出:pandas.core.series.Series

2. Series 组成 DataFrame

python">pm = pd.Series(['矿泉水','纸巾','毛巾'])
sl = pd.Series([100,150,30])
dj = pd.Series([2,1,15])
pd.DataFrame([pm,sl,dj],index=['品名','数量','单价']).T
'''输出:品名		数量	单价
0	矿泉水	100	2
1	纸巾		150	1
2	毛巾		30	15'''

3. 逐行读取表格值(iterrows() ->迭代返回各行索引和值)

python">df = pd.DataFrame([pm,sl,dj],index=['品名','数量','单价']).T
for index, content in df.iterrows():pm, sl, dj = contentprint(sl)print(dj)
'''输出:
100
2
150
1
30
15'''

三、Pandas 的读写操作

Pandas 通过(read_文件类型())和(to_文件类型())读取和写入表格(DataFrame),支持类型如下:
在这里插入图片描述
1. 读取 Excel 文件(pd.read_excel(io=文件路径+文件名 [,sheet_name=工作表名,默认第1张表]))
(电子表格与程序在于同一目录,内容同上图)

python">df = pd.read_excel('test.xlsx')
df.head(3) # 前3行信息
'''输出:Format Type	Data Description		Reader		Writer
0	text		CSV						read_csv	to_csv
1	text		Fixed-Width Text File	read_fwf	NaN
2	text		JSON					read_json	to_json'''

2. 写入到Excel 文件(pd.to_excel(文件名 [,index=True写入行索引 默认 | False 不写入),header=是否写入列索引)

python">df2 = df.head(3)
#将前3行输出为新表
df2.to_excel('test2.xlsx',index=False)

四、选择指定行列数据

(一)根据行、列索引名选择 (loc[行索引名 , 列索引名])

python">arr = np.arange(16).reshape(4,4)
df = pd.DataFrame(arr, index=['a','b','c','d'], columns=['e','f','g','h'])
'''df结构:e	f	g	h
a	0	1	2	3
b	4	5	6	7
c	8	9	10	11
d	12	13	14	15'''
# df.loc[:,:]  返回所有数据
# df.loc[:3,:] 返回前4行 (0,1,2,3)
# df.loc[:,'前区1']   返回  Series
# df.loc[:,['前区1']] 返回  DataFrame
df.loc[ :'c', 'e':'g'] #返回前3行,前3列数据 同 df.loc[['a','b','c'], ['e','f','g']]
'''输出:e	f	g
a	0	1	2
b	4	5	6
c	8	9	10'''

(二)根据行、列位置选择 (iloc[行位置,列位置)

python">#用iloc返回前2行2列数据
df.iloc[:2, :2]
'''输出:e	f
a	0	1
b	4	5'''

http://www.ppmy.cn/news/1522015.html

相关文章

数据分析-13-时间序列异常值检测的类型及常见的检测方法

参考时间序列异常值的分类及检测 参考异常值数据预警分析 1 时间序列异常的类型 时间序列异常检测是数据处理和分析的重要环节,广泛应用于量化交易、网络安全检测、自动驾驶汽车和大型工业设备日常维护等领域。在时间序列数据中,异常通常指的是与正常数据模式显著不同的数据…

西方社会学理论教程(侯均生)笔记

西方社会学理论 导言 一、学习《西方社会学理论》的目的 通过学习社会学发展史上各个思想名家的研究方法和社会理论&#xff0c;在自觉模仿和实践的基础上&#xff0c;形成自己看待社会现象和社会问题的思维方式和理论视角。 二、社会学发展史 &#xff08;一&#xff09;古…

【架构-29】RPC

RPC&#xff08;Remote Procedure Call&#xff0c;远程过程调用&#xff09;框架是一种用于实现分布式系统中不同节点之间通信和调用的技术框架。 一、为什么需要 RPC&#xff1f; 实现分布式系统 在现代的软件应用中&#xff0c;尤其是大规模的企业级应用和互联网服务&…

设计模式学习-简单的命令模式例子

上一章节介绍过了命令模式&#xff0c;这一篇文章就简单的做一个小案例来巩固学习 搭建场景 简单的搭建一个场景就行 &#xff0c;随便准备一个物体放在场景中位置Reset一下即可。 代码编写 定义接口&#xff08;或者抽象类&#xff09;ICommand 用来规范Command的行为。注意…

Spring及Springboot事件机制详解

程序设计的所有原则和方法论都是追求一件事——简单——功能简单、依赖简单、修改简单、理解简单。因为只有简单才好用&#xff0c;简单才好维护。因此&#xff0c;不应该以评论艺术品的眼光来评价程序设计是否优秀&#xff0c;程序设计的艺术不在于有多复杂多深沉&#xff0c;…

idea配置svn发现安装的svn中的bin目录下没有svn.exe文件

问题描述 使用idea配置svn时&#xff0c;发现安装的svn没有svn.exe文件 解决方法 1、双击svn安装包&#xff0c;找到【modify】 2、默认安装时&#xff0c;没有安装command line client tools&#xff0c;里面是有svn.exe 3、选择will be installed on local hard drive 4、…

x264 编码器 AArch64汇编系列:deblock 去块滤波相关汇编函数

deblock 在x264_deblock_init函数中定义各种 deblock 实现的方法: 以亮度分量垂直方向滤波为例 c 语言实现亮度分量垂直滤波函数:deblock_v_luma_cstatic ALWAYS_INLINE void deblock_edge_luma_c( pixel *pix, intptr_t xstride, int alpha

【个人笔记】VCS工具与命令

Title&#xff1a;VCS工具学习 一 介绍 是什么&#xff1f; VCS (Verilog Compiler Simulator) 是synopsys的verilog 仿真软件&#xff0c;竞品有Mentor公司的Modelsim、Cadence公司的NC-Verilog、Verilog—XL. VCS能够 分析、编译 HDL的design code&#xff0c;同时内置了 仿…

笔记本电脑在跑模型或日常使用中突然白屏的解决办法

文章目录 前言解决方案总结 前言 这段时间我注意到在跑模型或是加载一些大文件的时候&#xff0c;电脑经常会突然白屏&#xff0c;这种问题在日常生活中也时常发生&#xff0c;下面会提供快速有效的解决方法&#xff0c;希望能对大家有所帮助。 解决方案 按快捷键 C t r l A…

WPF MVVM如何在ViewModel直接操作控件对象

早些年在WPF中使用COM组件时&#xff0c;需要在ViewModel中操作COM组件中的控件对象&#xff0c;但是这个控件对象又不支持绑定&#xff0c; 后面的解决办法是在窗口加载时&#xff0c;将控件对象以参数传递到Loaded事件的处理命令中&#xff0c;然后将这个对象记录下来&#…

51单片机-第十二节-LCD1602液晶显示屏

一、LCD1602介绍&#xff1a; LCD1602是一种字符型液晶显示屏&#xff0c;可以显示ASCII码的标准字符和其他的内置特殊字符。 显示容量&#xff1a;16*2个字符&#xff0c;每个字符为5*7点阵。 二、引脚及应用电路&#xff1a; 其中&#xff1a;D0-7这8位数据是接在P0引脚上…

vim 快捷命令

在 Vim 中&#xff0c;进入末行模式的方法如下&#xff1a; 1. 按下 Esc 键&#xff0c;进入命令模式。 2. 输入 :&#xff0c;进入末行模式。 在末行模式下&#xff0c;你可以输入 Vim 命令&#xff0c;例如 q 强制退出 Vim&#xff0c;w 保存文件&#xff0c;r 读取文件等。…

数字人模型像素流送实时渲染网页手机平板用语音交互

随着AI的出圈&#xff0c;数字人结合大语言模型也迎来了春天&#xff0c;市场上涌现了越来越多的数字人服务&#xff0c;深耕于不同的实际使用场景。点量小芹在和一些数字人厂家交流的过程中发现&#xff0c;很多厂家对于数字人如何更好地在网页、手机平板等移动端使用&#xf…

Java中优先队列API

Java中的优先队列&#xff08;PriorityQueue&#xff09;是一个基于堆实现的无界队列&#xff0c;优先队列中的元素按照自然顺序或者通过提供的比较器排序。 1. 构造方法 PriorityQueue(): 创建一个默认初始容量为11的空优先队列&#xff0c;并根据其元素的自然顺序对其进行排…

HTML 列表

列表是网页中最常用的一种数据排列方式 在HTML中&#xff0c;列表共分为三种&#xff1a;有序列表、无序列表和定义列表。在有序列表中&#xff0c;列表项之间有先后顺序之分。在无序列表中&#xff0c;列表项之间是没有先后顺序之分的。而定义列表是一组带有特殊含义的列表&a…

PMP--谋定而后动

文章目录 技巧一模二模三模9.资源管理--问题解决--谋定而后动14.敏捷–人员–教练/项目经理–仆人式领导–职责–核心工作–消除障碍&#xff1b;–作用–促进合作&#xff08;题干关键词 “促进合作、清除障碍、指导团队”。&#xff09;&#xff1a;148、 [单选] 在评估当前冲…

Apache Tomcat 6.0.45 下载、安装和配置教程

文章目录 序言下载安装配置 序言 安装前配置好jdk环境。 下载 百度网盘&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1ZWyKoNe0K7S748BntE48mw 提取码&#xff1a;6666 安装 1&#xff0c;双击图标&#xff0c;启动程序 2&#xff0c;单击“Next”按钮 3&…

集成电路学习:什么是RTC实时时钟

一、RTC&#xff1a;实时时钟 RTC&#xff0c;即实时时钟&#xff08;Real-Time Clock&#xff09;&#xff0c;是一种能够在设备中持续运行并准确记录时间的电子组件。它广泛应用于计算机、手机、嵌入式系统、智能家居设备等多种场合&#xff0c;为这些设备提供精确的时间基准…

个股场外期权的行权时间是什么时候?

今天带你了解个股场外期权的行权时间是什么时候&#xff1f;场外个股期权的行权日并没有一个固定的日期&#xff0c;它主要取决于期权合约的具体条款和规定。 个股场外期权 个股场外期权是指在场外交易市场进行的、以单个股票为标的资产的期权合约。这种期权与在交易所交易的…

2024数学建模国赛高教社杯C题:农作物的种植策略 思路代码文章助攻手把手保姆级

发布于18:25有问题后续会修正!! 背景信息 问题分析基于你提供的资料——2024年全国大学生数学建模竞赛C题&#xff0c;其核心内容为优化一个乡村的农作物种植策略。 背景分析 该乡村位于华北山区&#xff0c;气候较冷&#xff0c;土地资源有限&#xff0c;存在四种地块类型&a…