Pandas常见函数

ops/2024/12/15 7:53:00/

Pandas 是 Python 中用于数据分析和处理的强大工具库。以下是 Pandas 中一些常见的函数和方法,按用途分类总结:


1. 数据创建

  • pd.Series(data, index):创建一维的序列对象。
  • pd.DataFrame(data, index, columns):创建二维的DataFrame。
  • pd.read_csv(filepath):从CSV文件中读取数据。
  • pd.read_excel(filepath, sheet_name):从Excel文件中读取数据。
  • pd.DataFrame.from_dict(data):从字典创建DataFrame。

2. 数据查看

  • df.head(n):查看前 n 行数据。
  • df.tail(n):查看后 n 行数据。
  • df.shape:返回数据的行数和列数。
  • df.info():获取数据的基本信息。
  • df.describe():对数值列进行统计汇总(均值、中位数等)。
  • df.columns:查看列名。
  • df.dtypes:查看每列的数据类型。

3. 数据选择与过滤

  • df['col_name']:选择单列数据,返回Series。
  • df[['col1', 'col2']]:选择多列数据,返回DataFrame。
  • df.iloc[row_idx, col_idx]:基于索引位置选择数据。
  • df.loc[row_label, col_label]:基于标签选择数据。
  • df[df['col_name'] > value]:基于条件过滤数据。

4. 数据清洗

  • df.isnull():检查缺失值,返回布尔值DataFrame。
  • df.notnull():检查非缺失值。
  • df.dropna(axis=0/1):删除缺失值所在的行或列。
  • df.fillna(value):填充缺失值。
  • df.replace(old_value, new_value):替换指定值。
  • df.duplicated():检查重复行。
  • df.drop_duplicates():删除重复行。

5. 数据操作

数据修改

  • df['new_col'] = value:添加新列。
  • df.rename(columns={'old': 'new'}):重命名列名。
  • df.set_index('col_name'):设置某列为索引。
  • df.reset_index():重置索引。

数据排序

  • df.sort_values(by='col_name', ascending=True):按列排序。
  • df.sort_index():按索引排序。

数据分组

  • df.groupby('col_name').sum():按列分组并求和。
  • df.groupby('col_name').agg({'col1': 'mean', 'col2': 'sum'}):自定义分组聚合。

数据合并

  • pd.concat([df1, df2], axis=0):按行或列拼接数据。
  • pd.merge(df1, df2, on='col_name', how='inner'):按键合并数据。
  • df.join(other_df):按索引合并数据。

6. 数据分析

  • df['col_name'].value_counts():统计每个值的出现次数。
  • df['col_name'].unique():查看唯一值。
  • df['col_name'].nunique():统计唯一值个数。
  • df.corr():计算相关系数。
  • df.cov():计算协方差。
  • df.pivot_table(values, index, columns, aggfunc):生成透视表。

7. 数据输出

  • df.to_csv('output.csv', index=False):导出到CSV文件。
  • df.to_excel('output.xlsx', index=False):导出到Excel文件。
  • df.to_json('output.json'):导出为JSON文件。

这些函数和方法覆盖了数据处理的主要场景,可以帮助快速完成数据的加载、清理、分析和输出。


http://www.ppmy.cn/ops/142039.html

相关文章

JVM--垃圾回收机制

垃圾回收机制(Garbage Collection,简称GC)是Java虚拟机(JVM)中的一项关键技术,它自动管理程序运行时产生的内存分配与释放,从而减轻了程序员手动管理内存的负担,并减少了由于错误的内…

IoTDB Allocate WAL Buffer Fail Because out of memory

问题及现象 时序数据库 IoTDB 集群报错: The write is rejected because the wal directory size has reached the threshold 53687091200 bytes. You may need to adjust the flush policy of the storage storageengine or the IoTConsensus synchronization pa…

Ensembl数据库下载参考基因组(常见模式植物)bioinfomatics 工具37

拟南芥参考基因组_拟南芥数据库-CSDN博客 1 Ensembl数据库网址 http://plants.ensembl.org/index.html #官网 如拟南芥等 那么问题来了,基因组fa文件和gff文件在哪里? 2 参考案例 拟南芥基因组fa在这里 注释gff文件在这里

soul大数据面试题及参考答案

如何看待数据仓库? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 从数据存储角度看,它整合了来自多个数据源的数据。这些数据源可能包括业务系统数据库、日志文件等各种结构化和非结构化数据。例如,在电商企业中,它会整合订…

RTMP推流平台EasyDSS在无人机推流直播安防监控中的创新应用

无人机与低空经济的关系密切,并且正在快速发展。2024年中国低空经济行业市场规模达到5800亿元,其中低空制造产业占整个低空经济产业的88%。预计未来五年复合增速将达到16.03%。 随着科技的飞速发展,公共安防关乎每一个市民的生命财产安全。在…

Batch Normalization和 Layer Normalization

Batch Normalization和 Layer Normalization Batch Normalization (BN) 和 Layer Normalization (LN) 是深度学习中常用的归一化技术,它们的主要目的是加速训练、提高模型的收敛速度和稳定性。以下是对这两种归一化技术的详细讲解: 1. Batch Normalizat…

国科大网络协议安全期末

完整资料仓库地址:https://gitee.com/etsuyou/UCAS-Network-Protocol-Security 部分题目: 六 论述题10*220 试讨论IPv6解决了IPv4的哪些“痛点”,以及IPv6存在的安全问题试比较IPsec与SSL的安全性 五 简答题5*315 简述MAC欺骗和ARP欺骗的…

批量合并文件夹下所有DWG文件(批量合并CAD图)——c#插件实现

批量合并文件夹下大量cad图纸,使用插件一键完成,效果如下: (使用方法:命令行输入 “netload” 加载插件,然后输入“combdwg”运行,选择文件夹即可。) 部分代码如下: pub…