pandas数据预处理

news/2025/3/22 10:26:31/

pandas数据预处理

  • pandas及其数据结构
    • pandas简介
      • Series数据结构及其创建
      • DataFrame数据结构及其创建
  • 利用pandas导入导出数据
    • 导入外部数据
      • 导入数据文件
    • 导出外部数据
      • 导出数据文件
  • 数据概览及预处理
    • 数据概览分析
      • 利用DataFrame的常用属性
      • 利用DataFrame的常用方法
    • 数据清洗
      • 缺失值处理
        • 删除法
        • 替换法
      • 重复值处理
        • 去重
      • 异常值检测与处理
      • 数据抽取与合并
        • 数据抽取
        • 数据合并
      • 数据增删改
      • 数据转换
  • 数据的描述性统计分析
    • 数据排序
    • 常见数据计算
      • 数值型特征的描述性统计
      • 类别型特征的描述统计
  • 分组统计分析
    • 数据分组
    • 分组聚合

pandas及其数据结构

pandas简介

pandas是Python语言的一个第三方库,开放源码,提供高性能、易于使用的数据结构和数据分析工具。pandas是一个强大的分析结构化数据的工具集,基于numpy实现的。
在这里插入图片描述

Series数据结构及其创建

pandas的核心是Series和DataFrame两大数据结构

  • Series数据结构是用于存储一个序列的一维数组,而DataFrame数据结构则是用于存储复杂数据的二维数据结构。
  • Series是一种类似于一维数组的对象,它是由一组数据,这组数据可以是Numpy中任意类型的数据,以及一组与之相关的数据标签组成。
  • Series对象的内部结构是由两个相互关联的数组组成,即数值和索引。
    在这里插入图片描述
    Series类型是带索引的一维数组对象。包含了一个值序列,并且包含了数据标签,称为索引(index),可通过索引来访问数组中的数据。
    Series的创建格式:
    pandas.Series(data[, index])
    函数中的参数:
    data是输入给Series构造器的数据。
    index是Series对象中数据的标签(即索引)。
    例如:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

DataFrame数据结构及其创建

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。
分别有行索引和列索引。
常用于表达二维数组,也可以表达多维数组。DataFrame的创建格式:
在这里插入图片描述
pandas.DataFrame(data[,index[,columns]])
函数中的参数说明:

  • data是输入给DataFrame构造器的数据,见下页。
  • Index是DataFrame对象中行索引的标签。
  • columns是DataFrame对象中列索引的标签。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

利用pandas导入导出数据

导入外部数据

导入数据文件

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

导出外部数据

导出数据文件

在这里插入图片描述

数据概览及预处理

数据概览分析

数据概览是在数据分析之前对数据的规模、数据的类型及数据的质量等进行概览性的分析
在这里插入图片描述

利用DataFrame的常用属性

在这里插入图片描述

利用DataFrame的常用方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据清洗

数据清洗是通过预处理,剔除数据中的噪声,恢复数据完整性和一致性
在这里插入图片描述

缺失值处理

删除法

在这里插入图片描述

替换法

在这里插入图片描述

重复值处理

去重

在这里插入图片描述

异常值检测与处理

在这里插入图片描述

数据抽取与合并

数据抽取

在这里插入图片描述

数据合并

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据增删改

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据转换

在这里插入图片描述

数据的描述性统计分析

数据排序

在这里插入图片描述
在这里插入图片描述

常见数据计算

在这里插入图片描述

数值型特征的描述性统计

在这里插入图片描述

类别型特征的描述统计

在这里插入图片描述
在这里插入图片描述

分组统计分析

数据分组

在这里插入图片描述
在这里插入图片描述

分组聚合

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/news/191993.html

相关文章

全套免费视频下载平台

C语言编程 http://www.dsitit.com/?dokckview&aliascbiaodashi C编程编程 http://www.dsitit.com/?dokechengku&cid&dd0403 网络编程视频 http://www.dsitit.com/?dokckview&aliassys python视频 http://www.dsitit.com/?dokechengku&cid&d…

OpenJDK各平台版本下载

开源清华大学镜像 https://mirrors.tuna.tsinghua.edu.cn/AdoptOpenJDK/ https://share.weiyun.com/pggTSFlP

微信支付查看证书序列号下载平台证书商家付款配置

1.查看证书序列号,进入到apiclient_cert.pem所在目录 openssl x509 -in apiclient_cert.pem -noout -serial 微信支付v2 v3密钥必须32位,不然可保存,但使用会报签名错误 2.下载平台证书(必须php7以上) 命令: ./bin…

下载下载下载

侧sas啊下载下载下载下载下载下载下载下载

网站下载类平台怎么选择服务器

随着互联网业务的多元化,用户对于服务器租用的要求也变得越来越高,快快泉州电信大带宽,从100M到1G满足不同业务的需求,数据中心位于泉州EC产业园内,是快快网络向东南沿海地区辐射的重要战略基地,具备完善的…

如何下载海外平台Vimeo的视频?

Vimeo是海外一款偏向艺术性和观赏性内容的视频平台,很多国内平台的视频素材都摘自Vimeo。大部分Vimeo视频都无法直接下载,因为视频创作者设置了关闭下载按钮。 这时候要想下载它们,就只能通过一些技术手段或专用下载器来获取资源。 一般这种…

如何统计各个分发平台的下载数据

引言 在我们的实际分发中,我们很多情况下都需要去统计每个月或者整体的当前app的下载数据,对这些每次都会做的事情,进行一个记录,方便你我他。 1.腾讯分发平台[应用宝] 1)如何查看整体下载量 打开应用宝,然后搜索自…