文章目录
- 一、Pandas 文件读取和存储概览
- 二、读取不同类型的文件
- 1. CSV文件的读取与存储
- 代码及解释:
- 2. Excel文件的读取与存储
- 代码及解释:
- 3. JSON文件的读取与存储
- 代码及解释:
- 4. SQL数据库的读取与存储
- 代码及解释:
- 5. 其他格式文件的读取与存储
- HTML文件的读取
- HDF5文件的读取和写入
一、Pandas 文件读取和存储概览
Pandas 支持的文件类型包括但不限于 CSV、Excel、JSON、HTML 和 SQL。
二、读取不同类型的文件
1. CSV文件的读取与存储
CSV(逗号分隔值)文件是数据存储的一种常见格式,特别适合存储表格数据。
代码及解释:
import pandas as pd# 读取CSV文件
data_csv = pd.read_csv('example.csv')
print(data_csv.head())# 存储为CSV文件
data_csv.to_csv('output.csv', index=False)
pd.read_csv
函数用于读取 CSV 文件,而 to_csv
方法用于将 DataFrame 存储回 CSV 文件。index=False
参数防止将行索引作为单独一列写入文件。
2. Excel文件的读取与存储
Excel 文件是办公室中常用的数据记录和分析工具。Pandas 通过内置的函数支持读取和写入 Excel 文件。
代码及解释:
# 读取Excel文件
data_excel = pd.read_excel('example.xlsx')
print(data_excel.head())# 存储为Excel文件
data_excel.to_excel('output.xlsx', index=False)
pd.read_excel
和 to_excel
分别用于读取和写入 Excel 文件。同样,index=False
防止行索引被写入。
3. JSON文件的读取与存储
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,常用于网络数据传输。
代码及解释:
# 读取JSON文件
data_json = pd.read_json('example.json')
print(data_json.head())# 存储为JSON文件
data_json.to_json('output.json')
pd.read_json
用于读取 JSON 文件,而 to_json
方法将 DataFrame 转换为 JSON 格式。
4. SQL数据库的读取与存储
SQL 数据库是存储和管理数据的重要工具。Pandas 可以与 SQL 数据库交互,执行数据的读取和存储操作。
代码及解释:
from sqlalchemy import create_engine# 创建数据库连接
engine = create_engine('sqlite:///example.db')# 读取SQL数据
data_sql = pd.read_sql('SELECT * FROM table_name', engine)
print(data_sql.head())# 存储到SQL数据库
data_sql.to_sql('table_name', engine, if_exists='replace', index=False)
在这里,create_engine
用于创建与数据库的连接。pd.read_sql
从数据库中读取数据,而 to_sql
方法将数据写入数据库。
5. 其他格式文件的读取与存储
除了上述格式,Pandas 还支持多种其他格式,例如 HTML、HDF5 等。
HTML文件的读取
# 读取HTML中的表格数据
data_html = pd.read_html('http://example.com')
print(data_html[0].head())
pd.read_html
读取 HTML 文件中的表格数据。
HDF5文件的读取和写入
# 读取HDF5文件
data_hdf5 = pd.read_hdf('data.h5', 'key')
print(data_hdf5.head())# 写入HDF5文件
data_hdf5.to_hdf('output.h5', 'key')
HDF5 是用于存储大量科学数据的一种文件格式。pd.read_hdf
和 to_hdf
分别用于读取和写入 HDF5 文件。