Pandas 是 Python 中用于数据分析和处理的强大工具库。以下是 Pandas 中一些常见的函数和方法,按用途分类总结:
1. 数据创建
pd.Series(data, index)
:创建一维的序列对象。pd.DataFrame(data, index, columns)
:创建二维的DataFrame。pd.read_csv(filepath)
:从CSV文件中读取数据。pd.read_excel(filepath, sheet_name)
:从Excel文件中读取数据。pd.DataFrame.from_dict(data)
:从字典创建DataFrame。
2. 数据查看
df.head(n)
:查看前 n 行数据。df.tail(n)
:查看后 n 行数据。df.shape
:返回数据的行数和列数。df.info()
:获取数据的基本信息。df.describe()
:对数值列进行统计汇总(均值、中位数等)。df.columns
:查看列名。df.dtypes
:查看每列的数据类型。
3. 数据选择与过滤
df['col_name']
:选择单列数据,返回Series。df[['col1', 'col2']]
:选择多列数据,返回DataFrame。df.iloc[row_idx, col_idx]
:基于索引位置选择数据。df.loc[row_label, col_label]
:基于标签选择数据。df[df['col_name'] > value]
:基于条件过滤数据。
4. 数据清洗
df.isnull()
:检查缺失值,返回布尔值DataFrame。df.notnull()
:检查非缺失值。df.dropna(axis=0/1)
:删除缺失值所在的行或列。df.fillna(value)
:填充缺失值。df.replace(old_value, new_value)
:替换指定值。df.duplicated()
:检查重复行。df.drop_duplicates()
:删除重复行。
5. 数据操作
数据修改
df['new_col'] = value
:添加新列。df.rename(columns={'old': 'new'})
:重命名列名。df.set_index('col_name')
:设置某列为索引。df.reset_index()
:重置索引。
数据排序
df.sort_values(by='col_name', ascending=True)
:按列排序。df.sort_index()
:按索引排序。
数据分组
df.groupby('col_name').sum()
:按列分组并求和。df.groupby('col_name').agg({'col1': 'mean', 'col2': 'sum'})
:自定义分组聚合。
数据合并
pd.concat([df1, df2], axis=0)
:按行或列拼接数据。pd.merge(df1, df2, on='col_name', how='inner')
:按键合并数据。df.join(other_df)
:按索引合并数据。
6. 数据分析
df['col_name'].value_counts()
:统计每个值的出现次数。df['col_name'].unique()
:查看唯一值。df['col_name'].nunique()
:统计唯一值个数。df.corr()
:计算相关系数。df.cov()
:计算协方差。df.pivot_table(values, index, columns, aggfunc)
:生成透视表。
7. 数据输出
df.to_csv('output.csv', index=False)
:导出到CSV文件。df.to_excel('output.xlsx', index=False)
:导出到Excel文件。df.to_json('output.json')
:导出为JSON文件。
这些函数和方法覆盖了数据处理的主要场景,可以帮助快速完成数据的加载、清理、分析和输出。