第十五章:Python的Pandas库详解及常见用法

devtools/2025/4/1 19:27:21/

   数据分析领域,Python的Pandas库是一个不可或缺的工具。它提供了高效的数据结构和数据分析工具,使得数据处理变得简单而直观。本文将详细介绍Pandas库的基本功能、常见用法,并通过示例代码演示如何使用Pandas进行数据处理。最后,我将用表格的形式梳理总结Pandas库的常用函数及其参数用法。资源绑定附上完整资源供读者参考学习!

一、Pandas库简介

1.1 什么是Pandas?

Pandas是一个开源的Python库,专为数据分析而设计。它提供了两种主要的数据结构:Series(一维数组)和DataFrame(二维表格),使得数据处理更加高效和便捷。

1.2 Pandas的主要特点

  • 数据结构:提供了SeriesDataFrame两种数据结构,适合处理结构化数据

  • 数据读取:支持多种数据格式的读取,如CSV、Excel、SQL数据库等。

  • 数据清洗:提供了处理缺失值、重复值、异常值等功能

  • 数据转换:支持数据的筛选、排序、分组、聚合等操作。

  • 数据可视化:集成了Matplotlib,方便进行数据可视化

1.3 Pandas的应用场景

  • 数据分析:用于清洗、转换和分析数据

  • 数据科学:在数据科学项目中进行数据预处理

  • 金融分析:处理时间序列数据和金融数据。

  • 机器学习:作为数据预处理工具,为机器学习模型提供输入数据。

二、Pandas库的常见用法

2.1 安装和导入Pandas

Python

# 安装Pandas
pip install pandas# 导入Pandas
import pandas as pd

2.2 数据读取

2.2.1 读取CSV文件

Python

python">import pandas as pd
# 读取CSV文件
df = pd.read_csv('2001-2017年北京市水资源情况信息.csv',encoding='gbk')# 显示前5行数据
print(df.head())

2.2.2 读取Excel文件

Python

python">​
# 读取Excel文件
df = pd.read_excel('data.xlsx')# 显示前5行数据
print(df.head())​

2.3 数据的基本操作

2.3.1 查看数据结构

Python

python">import pandas as pd
df=pd.read_csv('2001-2017年北京市水资源情况信息.csv',encoding='gbk')
# 查看数据类型
print(df.dtypes)# 查看数据维度
print(df.shape)# 查看数据描述性统计
print(df.describe())

2.3.2 筛选数据

Python

python">import pandas as pd
df=pd.read_excel('data.xlsx')
# 按列名筛选
print(df['姓名'])# 按条件筛选
print(df[df['总成绩'] > 90])# 多条件筛选
print(df[(df['平时成绩'] > 90) & (df['总成绩'] >90)])

2.3.3 排序数据

Python

python">import pandas as pd
df=pd.read_excel('data.xlsx')
# 按某一列排序
df_sorted = df.sort_values(by='总成绩', ascending=False)
print(df_sorted)# 按多列排序
df_sorted = df.sort_values(by=['平时成绩', '总成绩'], ascending=[False, True])
print(df_sorted)

2.4 数据清洗

2.4.1 处理缺失值

Python

python">import pandas as pd
df=pd.read_excel('data.xlsx')
# 查看缺失值
print(df.isnull().sum())# 删除缺失值
df_cleaned = df.dropna()# 填充缺失值
df_filled = df.fillna(value=0)

2.4.2 处理重复值

Python

python">import pandas as pd
df=pd.read_excel('data.xlsx')
# 查找重复值
print(df.duplicated())# 删除重复值
df_unique = df.drop_duplicates()

2.4.3 处理异常值

Python

python">import pandas as pd
df=pd.read_excel('data.xlsx')
# 使用IQR方法检测异常值
Q1 = df['平时成绩'].quantile(0.25)
Q3 = df['总成绩'].quantile(0.75)
IQR = Q3 - Q1# 筛选异常值
df_filtered = df[~((df['平时成绩'] < (Q1 - 1.5 * IQR)) | (df['总成绩'] > (Q3 + 1.5 * IQR)))]

2.5 数据可视化

2.5.1 绘制柱状图

Python

python">import pandas as pd
import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']
df=pd.read_excel('data.xlsx')df['总成绩'].value_counts().plot(kind='bar')
plt.show()

2.5.2 绘制折线图

Python

python">import pandas as pd
import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']
df=pd.read_excel('data.xlsx')df.plot(x='姓名', y='平时成绩', kind='line')
plt.show()

2.5.3 绘制散点图

Python

python">import pandas as pd
import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']
df=pd.read_excel('data.xlsx')df.plot(x='学院', y='总成绩', kind='scatter')
plt.show()

三、Pandas常用函数及参数总结

函数参数说明示例
read_csvfilepathsepheader读取CSV文件pd.read_csv('data.csv', sep=',', header=0)
read_excelfilepathsheet_name读取Excel文件pd.read_excel('data.xlsx', sheet_name='Sheet1')
read_sql_querysqlcon从SQL数据库读取数据pd.read_sql_query("SELECT * FROM table", conn)
headn显示前n行数据df.head(5)
tailn显示后n行数据df.tail(5)
describeincludeexclude显示数据的描述性统计df.describe(include='all')
dtypes-显示数据类型df.dtypes
shape-显示数据维度df.shape
sort_valuesbyascending按列排序df.sort_values(by='column', ascending=False)
groupbyby按列分组df.groupby('column')
sumaxisnumeric_only求和df.sum(axis=0, numeric_only=True)
meanaxisnumeric_only求平均值df.mean(axis=0, numeric_only=True)
dropnaaxishowthresh删除缺失值df.dropna(axis=0, how='any', thresh=2)
fillnavaluemethod填充缺失值df.fillna(value=0, method='ffill')
duplicatedsubsetkeep查找重复值df.duplicated(subset=['column1', 'column2'], keep='first')
drop_duplicatessubsetkeep删除重复值df.drop_duplicates(subset=['column1', 'column2'], keep='first')
value_countsnormalizedropna计算唯一值的频率df['column'].value_counts(normalize=True, dropna=False)
plotxykind绘制图表df.plot(x='column1', y='column2', kind='scatter')

四、总结

Pandas库是Python数据分析的核心工具之一,提供了丰富的功能和便捷的操作方式。通过本文的介绍和示例代码,相信你已经对Pandas库有了初步的了解。以下是Pandas库的主要优势:

  • 高效的数据结构SeriesDataFrame使得数据处理更加直观和高效。

  • 丰富的数据操作:支持数据读取、清洗、转换、分析和可视化等多种操作。

  • 广泛的适用性:适用于数据分析、数据科学、金融分析等多个领域。

希望本文能帮助你更好地理解和使用Pandas库,提高数据分析的效率和质量。如果你有任何问题或建议,欢迎在评论区留言!资源绑定附上完整资源供读者参考学习!


http://www.ppmy.cn/devtools/172445.html

相关文章

在Qt中判断输入的js脚本是否只包含函数

目前在使用QtScriptEngine&#xff0c;在利用evaluate注册子函数时&#xff0c;要求用户输入的js文件中的内容仅仅是函数&#xff0c;函数体外&#xff0c;不能出现一些变量的声明、函数的调用等其他代码。 反复咨询DeepSeek后&#xff0c;终于给出了一个目前测试可用的代码&am…

Sentinel 相关知识点

Sentinel 实现原理&#xff1f; Sentinel 是面向分布式服务架构的流量控制组件&#xff0c;主要以流量为切入点&#xff0c;从限流、流量整形、熔断降级、系统负载保护等多个维度来帮助开发者保障微服务的稳定性。以下是 Sentinel 的实现原理&#xff1a; 核心概念 资源&…

[Mac]利用Hexo+Github Pages搭建个人博客

由于我这台Mac基本没啥环境&#xff0c;因此需要从零开始配置&#xff0c;供各位参考。 注意⚠️&#xff1a;MacBook (M4)使用/bin/zsh作为默认Shell&#xff0c;其对应的配置文件为~/.zshrc 参考文档&#xff1a; HEXO系列教程 | 使用GitHub部署静态博客HEXO | 小白向教程 文…

基于Flask的防火墙知识库Web应用技术解析

基于Flask的防火墙知识库Web应用技术解析 一、系统概述 本系统是一个结构化网络防火墙知识库的Web实现&#xff0c;采用Python Flask框架构建&#xff0c;提供章节导航、知识点检索、详情展示等功能。系统整合了100条防火墙领域核心知识点&#xff0c;涵盖基础概念、配置实践…

SylixOS 中 select 原理及使用分析

1、select接口简介 1.1 select接口使用用例 select 是操作系统多路 I/O 复用技术实现的方式之一。 select 函数允许程序监视多个文件描述符&#xff0c;等待所监视的一个或者多个文件描述符变为“准备好”的状态。所谓的”准备好“状态是指&#xff1a;文件描述符不再是阻塞状…

windows磁盘管理

简介 Windows 磁盘管理是 Windows 操作系统中的一个功能强大的工具&#xff0c;用于管理和维护计算机的磁盘分区、卷和存储设备 磁盘管理的主要功能 查看磁盘分区信息&#xff1a; 可以查看所有磁盘的分区情况&#xff0c;包括分区大小、分区类型&#xff08;如 NTFS、FAT32 …

霸王茶姬小程序(2025年1月版)任务脚本

脚本用于自动执行微信小程序霸王茶姬的日常签到和积分管理任务。 脚本概述 脚本设置了定时任务(cron),每天运行两次,主要用于自动签到以获取积分,积分可以用来换取优惠券。 核心方法 constructor:构造函数,用于初始化网络请求的配置,设置了基础的 HTTP 请求头等。 logi…

Java实战:实现用户的登录注册功能

系列文章目录 Java文件 I/O流的操作实战和高级UI组件和事件监听的综合 文章目录 系列文章目录前言一、大致流程思路分析&#xff1a;二、定义用户类&#xff1a;三、服务层的实现&#xff1a; 1.保护用户数据功能的实现2.登录操作的实现 四、实现用户的注册界面&#xff1a; 大…