使用 Pandas 处理 .xlsx 文件的教程(Python)

news/2024/10/10 20:20:21/

xlsx__0">使用 Pandas 处理 .xlsx 文件的教程

Pandas 是 Python 数据分析的核心库之一,它提供了丰富的数据处理功能,尤其在处理表格数据(如 .xlsx 文件)时非常强大。Pandas 结合了 Python 的灵活性和简洁性,让用户能够轻松地进行数据的读写、清洗、操作和分析。本文将介绍如何使用 Pandas 处理 .xlsx 文件的常见操作,包括读取、写入、筛选、合并和统计等操作。


一、环境配置

1. 安装 Pandas

首先,确保已经安装了 Pandasopenpyxl(用于读取 .xlsx 文件)。可以通过以下命令进行安装:

pip install pandas openpyxl

openpyxl 是 Pandas 默认读取 .xlsx 文件的依赖库,确保其已经正确安装。

2. 导入 Pandas

在开始处理文件之前,需要在代码中导入 Pandas

python">import pandas as pd

二、读取 Excel 文件

Pandas 提供了 pd.read_excel() 函数,可以轻松读取 .xlsx 文件。

1. 读取单个工作表

最常见的操作是读取 .xlsx 文件中的单个工作表。以下是读取 Excel 文件的基本用法:

python"># 读取 Excel 文件中的第一个工作表
df = pd.read_excel('data.xlsx')# 显示前五行数据
print(df.head())

可以通过 sheet_name 参数指定读取的工作表:

python"># 读取名为 "Sheet2" 的工作表
df = pd.read_excel('data.xlsx', sheet_name='Sheet2')
2. 读取多个工作表

如果 Excel 文件中有多个工作表,并且想同时读取多个表,可以传递 sheet_name 为列表:

python"># 读取多个工作表,返回一个字典
sheets = pd.read_excel('data.xlsx', sheet_name=['Sheet1', 'Sheet2'])# 获取某个工作表的数据
sheet1_df = sheets['Sheet1']
3. 读取所有工作表

要读取所有工作表,可以将 sheet_name=None

python"># 读取所有工作表
sheets = pd.read_excel('data.xlsx', sheet_name=None)# 获取所有工作表的字典
for sheet_name, data in sheets.items():print(f"Sheet name: {sheet_name}")print(data.head())
4. 读取部分列或行

可以使用 usecols 参数只读取特定的列,或使用 nrows 读取部分行:

python"># 读取第1到3列的数据
df = pd.read_excel('data.xlsx', usecols="A:C")# 只读取前10行数据
df = pd.read_excel('data.xlsx', nrows=10)
5. 跳过行

可以使用 skiprows 参数跳过文件中的前几行:

python"># 跳过文件中的前5行
df = pd.read_excel('data.xlsx', skiprows=5)

三、写入 Excel 文件

Pandas 允许将 DataFrame 数据写入 Excel 文件,使用 to_excel() 方法。

1. 将 DataFrame 写入 Excel

将 DataFrame 写入 .xlsx 文件:

python">df.to_excel('output.xlsx', index=False)

其中,index=False 表示不写入行索引。如果需要保留索引信息,可以将其省略或设置为 True

2. 写入多个工作表

如果要将数据写入多个工作表,可以使用 pd.ExcelWriter 进行操作:

python">with pd.ExcelWriter('multi_sheet_output.xlsx') as writer:df1.to_excel(writer, sheet_name='Sheet1', index=False)df2.to_excel(writer, sheet_name='Sheet2', index=False)
3. 自定义表头

可以通过 header 参数自定义表头名称或禁用表头:

python"># 自定义表头
df.to_excel('output.xlsx', header=['Col1', 'Col2', 'Col3'], index=False)# 不写入表头
df.to_excel('output.xlsx', header=False, index=False)

python_138">python四、数据操作

在读取 Excel 文件后,可以利用 Pandas 强大的数据操作功能对数据进行处理。

1. 筛选数据

假设读取的 Excel 数据表如下:

python">data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],'Age': [24, 27, 22, 32],'Score': [85, 62, 90, 88]
}
df = pd.DataFrame(data)

可以根据特定条件筛选数据:

python"># 筛选出年龄大于25的数据
filtered_df = df[df['Age'] > 25]
print(filtered_df)
2. 排序数据

可以根据某列的值对数据进行排序:

python"># 按年龄进行升序排序
sorted_df = df.sort_values(by='Age', ascending=True)
print(sorted_df)
3. 分组与聚合

可以根据某一列对数据进行分组,并计算聚合结果:

python"># 按年龄分组,计算平均分数
grouped = df.groupby('Age')['Score'].mean()
print(grouped)
4. 缺失值处理

Pandas 提供了多种处理缺失值的方法。例如,查找和删除缺失值:

python"># 查看缺失值
print(df.isnull().sum())# 删除包含缺失值的行
df.dropna(inplace=True)# 用某个值替换缺失值
df.fillna(0, inplace=True)

五、Excel 文件的高级操作

1. 合并多个 Excel 文件

假设有多个 Excel 文件,并且它们有相同的列结构,可以使用 concat() 方法合并这些文件:

python">import pandas as pd# 读取多个 Excel 文件
df1 = pd.read_excel('file1.xlsx')
df2 = pd.read_excel('file2.xlsx')# 合并数据
df_combined = pd.concat([df1, df2], ignore_index=True)
print(df_combined)
2. 使用自定义数据类型

可以通过 dtype 参数指定读取列的数据类型:

python"># 将 'Age' 列作为字符串读取
df = pd.read_excel('data.xlsx', dtype={'Age': str})
3. 处理合并单元格

在 Excel 文件中,合并单元格可能导致数据读取不完整。Pandas 默认会将合并单元格的第一个值赋予该列的所有单元格。如果希望保留数据结构,可以手动处理这些合并单元格:

python">df = pd.read_excel('data_with_merged_cells.xlsx', merge_cells=False)
4. 条件格式化

可以在写入 Excel 文件时,添加条件格式。例如,突出显示某些条件的单元格:

python">import pandas as pd
from pandas.io.formats.style import Styler# 创建样式函数
def highlight_max(s):is_max = s == s.max()return ['background-color: yellow' if v else '' for v in is_max]# 创建 DataFrame
df = pd.DataFrame({'A': [1, 2, 3],'B': [4, 3, 6],'C': [7, 8, 5]
})# 应用样式并保存到 Excel
styled = df.style.apply(highlight_max)
styled.to_excel('styled_output.xlsx', engine='openpyxl', index=False)

六、总结

本文介绍了如何使用 Pandas 处理 .xlsx 文件,包括读取、写入、数据操作以及一些高级操作。Pandas 为处理 Excel 文件提供了强大的功能,特别是在数据清洗、分析和保存方面,它可以帮助轻松应对复杂的 Excel 数据操作。

常见的操作包括:

  • 使用 read_excel() 读取 Excel 文件的内容,并根据需求读取特定的工作表或部分数据。
  • 使用 to_excel() 将 DataFrame 数据写入 Excel 文件,可以输出多工作表或自定义格式。
  • 利用 Pandas 强大的数据操作能力,可以进行数据筛选、排序、分组、聚合以及处理缺失值。

通过熟练掌握这些操作,将能够更高效地处理和分析 Excel 文件中的数据。


http://www.ppmy.cn/news/1537101.html

相关文章

NDC美国药品编码目录数据库查询方法

NDC(National Drug Code)翻译为“国家药品代码”,是美国食品药品监督管理局(FDA)制定的一种药品标识系统,用于唯一标识药品。这个编码系统主要目的是为精准识别和追踪不同药品而建设,行业人员和…

解决Element-ui input 在搜狗输入法下,限制输入数字时先输入汉字后无法绑定的问题

在使用 Element UI 的 el-input 组件时,如果需要限制用户只能输入数字,并且确保在输入汉字后再输入数字能够正确绑定,以下提供两种解决方案,需要根据情况适当修改 监听 input 事件并处理值: 可以在 el-input 组件上监听…

讲讲Webpack的打包过程/打包原理/构建流程?

Webpack的打包过程可以简单概括为以下几个步骤,这些步骤构成了Webpack的构建流程和打包原理: 入口起点: Webpack从配置文件中的入口起点开始,根据入口配置找到项目中的入口文件(通常是一个JavaScript文件)…

Redis:list类型

Redis:list类型 list命令非阻塞LPUSHLRANGELPUSHXRPUSHRPUSHXLPOPRPOPLINDEXLINSERTLLENLREMLTRIMLSET 阻塞BLPOPBRPOP 内部编码ziplistlinkedlistquicklist 几乎每种语言都有顺序表、数组、链表这样的顺序结构,Redis也做出了相应的支持。 如图&#xff…

力扣(leetcode)每日一题 871 最低加油次数 | 贪心

871. 最低加油次数 题干 汽车从起点出发驶向目的地,该目的地位于出发位置东面 target 英里处。 沿途有加油站,用数组 stations 表示。其中 stations[i] [positioni, fueli] 表示第 i 个加油站位于出发位置东面 positioni 英里处,并且有 f…

LeetCode 2187.完成旅途的最少时间:二分查找

【LetMeFly】2187.完成旅途的最少时间:二分查找 力扣题目链接:https://leetcode.cn/problems/minimum-time-to-complete-trips/ 给你一个数组 time ,其中 time[i] 表示第 i 辆公交车完成 一趟旅途 所需要花费的时间。 每辆公交车可以 连续…

英文论文安全的免费查重网站

关注B站可以观看更多实战教学视频:hallo128的个人空间 英文论文安全的免费查重网站 对于英文论文查重,以下是一些相对安全、且免费使用的查重网站推荐。不过请注意,免费工具通常只能提供基础查重功能,对于学术论文的全面查重&…

FiBiNET模型实现推荐算法

1. 项目简介 A031-FiBiNET模型项目是一个基于深度学习的推荐系统算法实现,旨在提升推荐系统的性能和精度。该项目的背景源于当今互联网平台中,推荐算法在电商、社交、内容分发等领域的广泛应用。推荐系统通过分析用户的历史行为和兴趣偏好,预…