【pandas】库中的apply(lambda function ,arix)

server/2024/12/22 15:27:35/

pandas.apply()

遍历DataFrame的元素(一行或者一列数据)

行遍历:axis = 1     列遍历:axis = 0

基础信息

pandas的apply()方法是用来调用一个lambda函数,让函数对数据对象具有批处理的特性。

pandas支持apply()调用的对象包括——DataFrame\Series\分组对象等

DataFrame.apply(self, func, axis=0, raw=False, result_type=None, args=(), **kwargs)
  • func:函数或 lambda 表达式,应用于每行或者每列
  • axis:表示对象遍历的限制条件
    • 0 or ‘index’: 表示函数处理的是每一列
    • 1 or ‘columns’: 表示函数处理的是每一行
  • raw:bool 类型,默认为 False
    • False ,表示把每一行或列作为 Series 传入函数中
    • True,表示接受的是 ndarray 数据类型
  • result_type:{‘expand’, ‘reduce’, ‘broadcast’, None}, default None。These only act when axis=1 (columns)

    • ‘expand’ : 列表式的结果将被转化为列。
    • ‘reduce’ : 如果可能的话,返回一个 Series,而不是展开类似列表的结果。这与 expand 相反。
    • ‘broadcast’ : 结果将被广播到 DataFrame 的原始形状,原始索引和列将被保留。
  • func:func 的位置参数
  • **kwargs:要作为关键字参数传递给 func 的其他关键字参数

DataFrame与Series的区别与联系

区别:

  • series,只是一个一维结构,它由index和value组成。
  • dataframe,是一个二维结构,除了拥有index和value之外,还拥有column。

联系:

  • dataframe由多个series组成,无论是行还是列,单独拆分出来都是一个series。

3完整的df传入函数:(lambda内,x即为df)
df=df.apply(lambda x:myneed(x,arg1),axis=1)#可以将df['编号']传入函数:(lambda内,x即为df)
#操作对象就是df["编号"]
df=df.apply(lambda x:myneed(x['编号'],arg1),axis=1)
#也可以在df.apply()的apply函数前面的df进行增加操作对象的行或者列的限制
#对df['编号']进行apply操作:(lambda内,x即为df['编号'])
df['序号']=df['编号'].apply(lambda x:myneed(x,arg1),axis=1)

自己研究的实现的案例分析

def extract_cpath(cpath_route)if(cpath == '')return []return [int(s) for s in cpath.split(',')]
df["cpath_list"] = df.apply(lambda row:extract_cpath(row.cpath),axis = 1)#这段代码的含义是:
#首先定义一个extract_cpath(cpath_route)函数,函数实现的功能是提取出cpath列的符合条件的数据
df["cpath_list"]列用来存放row(df)的cpath列中通过extract_cpath函数提取出来的数据

(小贴士:通过find 命令能够查找当前目录及其子目录中所有符合特定条件的文件)大佬博客

#例如:查找当前目录及其子目录中所有以".txt"结尾的文件
find . -name "*.txt"

WKT格式数据的展示

Geopandas的coords问题

问题代码:
RoadNetWork = gpd.reead_file("../data/edges.shp")
#all_matched_edges_list = [3, 4, 5, 8, 11, 13, 14, 16, 17, 18, 20, 25]
RoadNetWork.id = RoadNetWork.id.astype(int) #将RoadNetWork.id 变成整数类型
edges_matched_result =RoadNetWork[RoadNetWork.id.isin(all_matched_edges_list)]
#上述作用:判断id与all_matched_edges_list是否匹配 如果匹配 输出行所在内容 如果不匹配 返回false 该行不输出
edges_matched_result.reset_index()
print(edges_matched_result.geometry.coords)
#我上述代码错误原因:对于整个geometry应用coords的坐标属性 对象不明确 
但是在apply(lambda row:len(row.geometry.coords),axis =1)里面,是逐行对geometry选定的列进行操作 这也就等价与针对于给定geometry的逐行的每个元素进行分析 对象指代明确 正确


http://www.ppmy.cn/server/40424.html

相关文章

Java设计模式-工厂

Java设计模式中,工厂模式主要包括普通工厂模式以及抽象工厂模式,普通工厂模式是用于制造输出不同类型的对象,抽象工厂模式是用于制造输出不同类型的普通工厂,本文主要描述工厂模式的基本用法。 如上所示,使用普通工厂模…

ChatGPT DALL-E绘图,制作各种表情包,实现穿衣风格的自由切换

DALL-E绘图功能探索: 1、保持人物形象一致,适配更多的表情、动作 2、改变穿衣风格 3、小女孩的不同年龄段展示 4、不同社交平台的个性头像创作 如果不会写代码,可以问GPT。使用地址:我的GPT4 视频,B站会发&#…

安全工程师基础模拟试题

安全工程师基础模拟试题作为一名安全工程师,掌握基本的安全知识和技能是必不可少的。下面是一些基础模拟试题,帮助您检验自己的安全工程师能力。1.在网络安全中,什么是… 1安全工程师基础模拟试题 作为一名安全工程师,掌握基本的…

第三章 crash recovery机制

第三章 crash recovery机制 一、为什么需要crash recovery 首先要从PostgreSQL的WAL说起。PG是面向磁盘的关系型数据库,数据的更新都需要在内存中完成,落盘才能保证持久化。普通硬盘的随机读写性能远小于顺序读写性能,而OLTP型业务大部分都是随机读写,若每次事务提交时都…

下水道井盖多分类检测定位

下水道井盖识别,多分类,使用yolov5训练,采用一部分开源数据集和自建数据集。python pytorch opencv 深度学习#人工智能#深度学习#目标检测

力扣:300. 最长递增子序列(Java,动态规划)

目录 题目描述:示例 1:示例 2:代码实现: 题目描述: 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列,删除(或不删除)数组中…

C语言-STM32-定时器:定时器的输入捕获

定时器在嵌入式系统中常用于执行周期性任务、中断服务或测量时间间隔。输入输出捕获(Input Capture and Output Compare,简称ICP和OCM)是定时器的两种重要功能,用于处理与时间相关的事件。以下是它们的基本概念: 1、输…

网络安全(黑客)自学启蒙

当我们谈论网络安全时,我们正在讨论的是保护我们的在线空间,这是我们所有人的共享责任。网络安全涉及保护我们的信息,防止被未经授权的人访问、披露、破坏或修改。 一、网络安全的基本概念 网络安全是一种保护:它涉及保护我们的设…