数据分析之Pandas--数据检索

news/2024/11/7 18:41:11/

数据分析之Pandas(03)--数据检索

pandas的数据检索功能是其最基础也是最重要的功能之一。

pandas中最常用的几种数据过滤方式如下:

  1. 1. 行列过滤:选取指定的行或者列

  2. 2. 条件过滤:对列的数据设置过滤条件

  3. 3. 函数过滤:通过函数设置更加复杂的过滤条件

本篇所有示例所使用的测试数据如下:

import pandas as pd
import numpy as npfp = "http://databook.top:8888/pandas/cn-people.csv"
df = pd.read_csv(fp)
df

image.png

1. 行列过滤

pandas中最常用的按行或者按列选择数据的函数是 loc 和 iloc

1.1 loc 函数

loc函数通过标签索引选择行列数据,可以在一个语句中同时指定行和列的条件。 按范围选取行:

df.loc([1:5, :])

image.png

选取指定的行:

df.loc[[1, 5], :]

image.png

按范围选取列:

df.loc[:, "年份":"指标中文"]

image.png

选取指定的列:

df.loc[:, ["年份","指标中文"]]

image.png

行和列也可以同时设置:

df.loc[1:3, ["年份","指标中文"]]

image.png

1.2 iloc 函数

iloc函数通过整数位置索引选择行列数据。 这种方法与loc方法类似,但是它使用整数位置而不是标签。

按范围选择行:

df.iloc([1:5, :])

image.png

注意这里可以看出ilocloc的区别,同样的范围[1:5], iloc不包括index=5的数据,而loc包括index=5的数据。

选择指定的行:

df.iloc[[1, 5], :]

image.png

这种选择方式下,ilocloc函数返回的结果是一样的。

按范围选择列:

df.iloc[:, 0:3]

image.png

注意,这里是 ilocloc的另一个区别, iloc只能用数字序列来表示列的范围(第一列对应数字0), 回顾之前的loc函数,我们可以用列名来表示范围的df.loc[:, "年份":"指标中文"]

另外,iloc表示列的范围0:3表示是0,1,2三列,不包括3这一列。

选择指定的列:

df.iloc[:, [0, 2]]

image.png

loc一样,iloc也可以行和列同时设置:

df.iloc[1:5, [0, 2]]

image.png

2. 条件过滤

行列过滤的方式是基于索引和列名称来过滤的,除此之外,还可以根据列的值来过滤。 这也是分析时常用的过滤方式。

2.1 单条件

根据列的值来过滤,列的值是数值还是字符串都可以。

df[df["年份"] > 2020]

image.png

字符串的过滤方式:

df[df["指标中文"].str.contains("乡村")].head()

image.png

2.2 多条件

除了设置单独的条件之外,也支持通过逻辑符号&|来设置多个条件。

df[(df["年份"] > 2020) & (df["指标中文"].str.contains("乡村"))]

image.png

必须同时满足年份>2021指标中文包含乡村两个条件的数据,只有1条。

df[(df["年份"] > 2020) | (df["指标中文"].str.contains("乡村"))].head(6)

image.png

只要满足年份>2021指标中文包含乡村两个条件之一的数据。

3. 函数过滤

pandas中还有两种通过函数来过滤和转换数据的方式,这种方式可以将自定义的函数应用到数据之上。 这样就提供了相当灵活的数据操作方式。

3.1 apply

针对DataFrame某一列数据的apply。 比如下面的示例增加一列,其值是将value列的数据放大10倍:

df["value10倍"] = df["value"].apply(lambda x: x*10)
df

image.png

3.2 map

针对DataFrame某一列数据的map。 比如下面的示例增加一列,其值是设置指标中文的缩写。

df["指标缩写"] = df["指标中文"].map({"年末总人口": "总人口", "乡村人口": "乡村"})
df

image.png

4. 总结回顾

本篇主要介绍了pandas数据检索的常用方式,数据检索是做分析时最常用的步骤。 通过数据过滤方法,快速确定用于分析的数据范围,剥离无用的数据,提高分析的效率。

数据检索方式由易到难分别为:

  1. 1. 行列过滤,lociloc

  2. 2. 条件过滤,单条件和多条件过滤

  3. 3. 函数过滤,自定义函数灵活的调整已有列的数据


http://www.ppmy.cn/news/99908.html

相关文章

KVM虚拟化技术学习-KVM管理

二&#xff0c;KVM管理 1.升级配置 1.创建一个空磁盘卷 [rootlocalhost ~]# qemu-img create -f qcow2 /kvm/images/disk2.qcow2 5G Formatting disk2.qcow2, fmtqcow2 size5368709120 encryptionoff cluster_size65536 lazy_refcountsoff 2.修改配置文件 <disk typefi…

如何使用 service account 获取 keycloak 的用户信息

Keycloak 是一个开源的权限管理和认证系统。使用 Keycloak 可以让开发者专注于解决业务的核心问题。获取用户信息是权限管理和认证系统需要的基本功能。Service Account 是OAuth 2.0推荐的系统服务使用的账户&#xff0c;开发者可以通过 Keycloak 的 Service Account 来让自己的…

ChatGPT自动生成思维导图

&#x1f34f;&#x1f350;&#x1f34a;&#x1f351;&#x1f352;&#x1f353;&#x1fad0;&#x1f951;&#x1f34b;&#x1f349; ChatGPT自动生成思维导图 文章目录 &#x1f350;问题引入&#x1f350;具体操作markmapXmind &#x1f433;结语 &#x1f…

idea不识别yml文件了

添加上这两个就好了

FFmpeg5.0源码阅读——mov文件格式解析

摘要&#xff1a;之前在Mp4格式详解中详细描述了Mp4文件格式的具体布局方式。为了更加深入理解mp4文件格式&#xff0c;本文记录了ffmpeg中解封装mp4文件的基本实现。关键字:mov、FFmpeg、mp4 1 简介 mp4文件格式是现如今网络上最常见的视频文件格式&#xff0c;其和mov等格式…

《数据库系统概论》期末考试手写笔记汇总+考试注意事项+反思(超全整理总结!!!)

&#xff08;一&#xff09;期末考试手写笔记汇总 笔记内容为期末考试前整理&#xff08;结合测试题PPT作业题目课本&#xff09; 很多内容为纯手写&#xff0c;非常的全乎&#xff0c;预祝你期末可以考个好成绩&#x1f339; 第二章第三章&#xff08;25分&#xff09; (…

POWERLINK协议在stm32单片机+w5500移植成功经验分享

连续折腾了多个晚上&#xff0c;又趁周末又花了一天时间&#xff0c;终于把powerlink协议移植成功到单片机上啦。本想放弃&#xff0c;但想了下不管我能不能用上&#xff0c;结个尾吧&#xff0c;分享给有需要的人。放弃并不难&#xff0c;但坚持一定很酷。为了移植测试这个协议…

线性表的链式表示——单链表

目录 一、单链表的定义二、单链表上基本操作的实现1、采用头插法建立单链表2、采用尾插法建立单链表3、按序号查找结点值4、按值查找表结点5、插入结点操作6、删除结点操作7、求表长操作 三、双链表、循环链表、静态链表 顺序表可以随时存取表中的任意一个元素&#xff0c;它的…