SQL 实战:复杂数据去重与唯一值提取

embedded/2025/1/1 16:28:27/

在实际开发中,数据重复是常见问题,例如用户多次登录记录、订单状态重复更新等。如何高效提取符合业务需求的唯一值或最新记录,对系统性能和数据准确性至关重要。

本文将探讨如何使用 SQL 的 窗口函数分组查询 以及 DISTINCT 实现复杂场景下的数据去重与唯一值提取,避免重复数据干扰业务分析。


一、核心 SQL 函数与技术

函数/技术说明示例
DISTINCT去除重复行,返回唯一记录SELECT DISTINCT(user_id) FROM logins
GROUP BY按指定列分组,返回每组的聚合结果SELECT user_id, MAX(login_time) FROM logins GROUP BY user_id
ROW_NUMBER()窗口函数,为每组记录编号,通常用于去重或排名ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_time DESC)
RANK()类似 ROW_NUMBER(),但排名相同记录具有相同序号RANK() OVER (PARTITION BY user_id ORDER BY score DESC)
DENSE_RANK()连续排名,不跳跃DENSE_RANK() OVER (PARTITION BY user_id ORDER BY amount DESC)

二、实战案例


案例 1:查询每个用户的最新登录记录

需求描述
系统中存储了用户的多次登录记录,我们需要提取每个用户最近的一次登录记录,去除重复数据。


表结构 logins
login_iduser_idlogin_time
10112024-01-01 08:30:00
10212024-01-02 10:00:00
10322024-01-01 09:15:00
10422024-01-03 14:45:00
10532024-01-02 11:00:00

方法 1:使用 GROUP BY 结合 MAX()
sql">SELECT user_id, MAX(login_time) AS latest_login  
FROM logins  
GROUP BY user_id;

查询结果

user_idlatest_login
12024-01-02 10:00:00
22024-01-03 14:45:00
32024-01-02 11:00:00

解释

  • 通过 GROUP BY user_id 对每个用户分组,MAX(login_time) 提取每组中最新的登录时间。
  • 该方法高效,适用于简单去重场景,但无法返回完整的记录(如 login_id)。

方法 2:使用窗口函数 ROW_NUMBER()
sql">SELECT login_id, user_id, login_time  
FROM (  SELECT login_id, user_id, login_time,  ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_time DESC) AS rn  FROM logins  
) t  
WHERE rn = 1;

查询结果

login_iduser_idlogin_time
10212024-01-02 10:00:00
10422024-01-03 14:45:00
10532024-01-02 11:00:00

解释

  • ROW_NUMBER() 为每个用户的登录记录按时间降序排序,并按用户分区。
  • 只保留排名为 1 的记录,即最新的登录记录。
  • 优势:保留了原始记录的完整性(包括 login_id)。


案例 2:提取每个用户的最高订单金额记录

需求描述
在电商系统中,每个用户可能有多笔订单,我们需要提取每个用户最高的订单记录。


表结构 orders
order_iduser_idamountorder_time
100115002024-01-05 09:00:00
100218002024-01-06 14:00:00
1003212002024-01-04 16:30:00
100429002024-01-05 11:00:00
100537002024-01-06 10:00:00

方法 1:使用 RANK() 保留最高金额记录
sql">SELECT order_id, user_id, amount, order_time  
FROM (  SELECT order_id, user_id, amount, order_time,  RANK() OVER (PARTITION BY user_id ORDER BY amount DESC) AS rnk  FROM orders  
) t  
WHERE rnk = 1;

查询结果

order_iduser_idamountorder_time
100218002024-01-06 14:00:00
1003212002024-01-04 16:30:00
100537002024-01-06 10:00:00

解释

  • RANK() 允许处理最高金额相同的情况,例如如果两个订单金额相同,则两条记录都将保留。
  • 区别RANK()DENSE_RANK() 不会跳跃记录,而 ROW_NUMBER() 只保留一条记录。


案例 3:去除重复订单记录,保留最新一笔

需求描述
订单系统中可能存在重复提交的订单记录,如何保留每个用户最新的一笔订单。


SQL 实现
sql">DELETE t1  
FROM orders t1  
JOIN orders t2  
ON t1.user_id = t2.user_id  
AND t1.order_time < t2.order_time;

解释

  • 通过自联结(JOIN)比较同一用户的订单时间,保留最新的订单记录,删除早期的重复记录。


三、去重与唯一值提取的优化建议

  1. 使用窗口函数提升性能
    窗口函数如 ROW_NUMBER()RANK() 能够在一次查询中完成分组与排序,减少多次查询操作,提高去重效率。

  2. 索引优化
    在频繁去重或分组查询的场景下,为分组字段(如 user_id)和时间字段(如 login_time)创建索引,可以显著提升查询性能。

sql">CREATE INDEX idx_user_login ON logins(user_id, login_time DESC);
  1. 聚合函数慎用
    在只需要统计数据时,可以使用 GROUP BYMAX(),但在保留完整记录时,应选择窗口函数进行精细控制。

四、总结

  • 去重策略多样化:根据业务需求选择合适的去重方法,GROUP BY 适用于简单去重,ROW_NUMBER()RANK() 适用于复杂场景。
  • 窗口函数灵活高效ROW_NUMBER() 等函数可以在保留完整记录的同时,精确筛选唯一值,解决复杂去重需求。
  • 索引优化:在大数据量环境下,合理使用索引能有效提升去重查询的性能。

http://www.ppmy.cn/embedded/149847.html

相关文章

CI/CD在前端项目的应用:实现自动化与持续交付

文章目录 前言一、理解CI/CD二、为什么前端项目需要CI/CD&#xff1f;三、前端CI/CD的关键组成部分四、实际案例&#xff1a;基于Vue的前端项目CI/CD结语 前言 随着软件开发的不断进化&#xff0c;CI/CD&#xff08;持续集成/持续部署&#xff09;已经成为现代应用程序开发不可…

一个桌面工具条系统,插件一键启动,快速扩展提高工作效率

一、开源项目简介 FocusAny FocusAny 是一个桌面工具条系统&#xff0c;支持市场插件、本地插件的一键启动&#xff0c;快速扩展功能&#xff0c;提高工作效率。 二、开源协议 使用AGPL-3.0开源协议 三、界面展示 插件支持一览 插件市场 Markdown插件Ctool程序员工具箱…

记录命令行操作树莓派Wifi的方式

打开WiFi rfkill unblock wlan 关闭WiFi rfkill block wlan 设置可连接的WiFi 方法一&#xff08;bullseye及以前版本才可用&#xff0c;bookworm版本&#xff09; sudo nano /etc/wpa_supplicant/wpa_supplicant.conf network{ssid"wifi_name"psk"wifi_pas…

pyqt和pycharm环境搭建

安装 python安装&#xff1a; https://www.python.org/downloads/release/python-3913/ python3.9.13 64位(记得勾选Path环境变量) pycharm安装&#xff1a; https://www.jetbrains.com/pycharm/download/?sectionwindows community免费版 换源&#xff1a; pip config se…

Kubernetes之NodeSelector与NodeName实战

目录 目标 版本 官网 概述 实战 NodeName实战 NodeSelector实战 目标 通过配置NodeSelector与NodeName实现Pod运行&#xff08;或优先运行&#xff09;在我们期望的节点之上。了解这两种实现方法的区别。 版本 Kubernets v1.25.0 官网 将Pod分配给节点https://kubernet…

WebRTC服务质量(10)- Pacer机制(02) RoundRobinPacketQueue

WebRTC服务质量&#xff08;01&#xff09;- Qos概述 WebRTC服务质量&#xff08;02&#xff09;- RTP协议 WebRTC服务质量&#xff08;03&#xff09;- RTCP协议 WebRTC服务质量&#xff08;04&#xff09;- 重传机制&#xff08;01) RTX NACK概述 WebRTC服务质量&#xff08;…

【每日学点鸿蒙知识】线程创建、构造函数中创建变量仍报错、List上下拖拽,调用JS代码、无法选择本地csr文件问题

1、HarmonyOS 如何创建一个单线程&#xff1f; 请问 worker 是单线程还是多线程&#xff1f;如果 worker 不是单线程&#xff0c;如何创建一个单线程呢&#xff1f; ArkTS是单线程模型&#xff0c;所以worker也是单线程&#xff0c;他是在宿主线程上创建的一个子线程&#xf…

12.26【net】[review][day2]

每一部电话都直接连接到交换机上&#xff0c;而交换机使用交换的方法&#xff0c;让电话用户彼此之间可以很方便地通信。 这种交换方式就是电路交换 (circuit switching)。 使用电话交换机将这些电话连接起来。 l 根据 首部 中包含的目的地址、源地址等重要 控制 信息进行转…