数据分析数据预处理:重复值(duplicated方法)

news/2024/10/21 3:51:36/

高频数据的重复值处理

数据源为高频 trades 数据

1. 导入数据

import pandas as pddf = pd.read_csv('hf_data.csv')print(df)

2. duplicate方法查看重复值

(1)subset 参数指定columns name

df.duplicated(subset='localtime').sum()

subset指定localtime判断是否存在重复值,返回bool

check_localtime = df.duplicated(subset='localtime')df[check_localtime>0].tail(20)

可以看到同个时间戳有多笔成交。

3. 重复值处理

针对不同的数据需求,最简单的三种重复值处理方法。

(1)drop_duplicated() 直接删除掉重复数据

df_drop_duplicate = df.drop_duplicates(subset='localtime')print("原数据shape",df.shape)
print("删除重复值后数据shape",df_drop_duplicate.shape)
print("检验重复值,",df_drop_duplicate.duplicated().sum())

可以看到重复数据占比还是比较多的,若重复数据有意义,比如该数据描述的是 交易数据,则当同个时间戳有多个交易数据描述了当下市场的活跃情况;因此用该方案做数据处理并不一定合适。

(2)保留重复值中的第一个或最后一个:drop_duplicated的keep参数

df_keep_last = df.drop_duplicates(subset='localtime',keep='last')

当我们想保留重复数据最后一个值,可以使用drop_duplicated的keep参数,"last"为最后一个值,“first”为第一个值。

(3)使用groupby对重复值做运算

分析原数据:localtime重复是因为同个时间多笔成交单形成,其次数据中有其他的属性比如价格(price),成交量(qty),交易方向(side);因此比较合适的处理方法是将数据时间戳合并到最小单位1ms,而针对不同的属性,可以采取:保留最后一个价格,总成交量等等;这样即处理了重复值的问题,也保留了数据中的信息

df.groupby(by='localtime').agg({'qty':"sum",'price':"last"})


http://www.ppmy.cn/news/1447696.html

相关文章

nginx服务中使用用户认证功能,对Web后台url进行用户验证【加一层认证】

本地环境与需求 本地环境 1:windows主机 2:有docker,有WSL2,Ubuntu 需求: 1:ubuntu-docker容器里面进行安装nginx,并且生成nginx的用户密码 2:当访问服务时【指定url或者域名】&…

理解Linux文件系统

文章目录 一、引言二、Linux文件系统概述1、文件系统的结构2、文件系统目录树的逻辑结构 二、文件系统的特性1、super block:文件系统的超级块2、inode:文件系统的索引节点3、inode table4、block:文件系统的数据块5、块组描述符表&#xff0…

DiffSeg——基于Stable Diffusion的无监督零样本图像分割

概述 基于计算机视觉的模型的核心挑战之一是生成高质量的分割掩模。大规模监督训练的最新进展已经实现了跨各种图像风格的零样本分割。此外,无监督训练简化了分割,无需大量注释。尽管取得了这些进展,构建一个能够在没有注释的零样本设置中分…

react之state深入浅出

第二章 - 添加交互 把一系列 state 更新加入队列 设置组件 state 会把一次重新渲染加入队列。但有时你可能会希望在下次渲染加入队列之前对 state 的值执行多次操作。为此,了解 React 如何批量更新 state 会很有帮助。 react 会对state 更新进行批处理 在下面的…

YOLOv5改进之bifpn

目录 一、原理 二、代码 三、在YOLOv5中的应用 一、原理 论文链接:

ai智能电销机器人常见问题有哪些?

现如今,市场上有很多种款式的智能销售机器人,但功能并不紧迫。那要选择哪个品牌的智能销售机器人会更容易使用呢?这使得越来越多的公司苦恼智能销售机器人的选择。我们一起来看看吧. 1.电销机器人的连接率如何? 机器人的连接率与…

sql连续登录

1、sql建表语句 DROP TABLE IF EXISTS app_login_record; CREATE TABLE app_login_record (user_id int(0) NULL DEFAULT NULL,enter_time datetime(0) NULL DEFAULT NULL,leave_time datetime(0) NULL DEFAULT NULL );INSERT INTO app_login_record VALUES (789012, 2023-05-…

MongoDB聚合运算符:$sqrt

MongoDB聚合运算符&#xff1a;$sqrt 文章目录 MongoDB聚合运算符&#xff1a;$sqrt语法使用举例 $sqrt聚合运算符返回数值的平方根&#xff0c;数值必须为正数&#xff0c;返回值为双精度数。 语法 { $sqrt: <number> }<expression>为可解析为非负数的表达式。 …