(四)SQL面试题(连续登录、近N日留存)学习简要笔记 #CDA学习打卡

server/2024/9/23 14:35:53/

目录

一. 连续登录N天的用户数量

1)举例题目

2)分析思路

3)解题步骤

(a)Step1:选择12月的记录,并根据用户ID和登录日期先去重

(b)Step2:创建辅助列a_rk(每个userID下的日期排序值)

(c)Step3:创建辅助列起步时间b_createdTime(用登录日期减去排序值,得到新时间列

(d)Step4:根据起步时间列统计连续登录天数

(e)Step5:根据统计结果查询连续登录人数(题目要求连续7天)

二. 近N日留存的用户数及留存率

1)举例题目

2)分析思路

3)解题步骤

(a)Step1:根据用户id和登录日期先去重

(b)Step2:创建新列first_time,获取每个userID下的最早登录日期

(c)Step3:创建辅助列delta_time,用登录日期列减去最早登录日期first_time,得到留存天数

(d)Step4:按first_time列统计不同留存天数对应的次数和即某日的近N日留存数

(e)Step5:用某日的近N日留存数除以首日登录人数即留存率


一. 连续登录N天的用户数量

1)举例题目

现有用户登录表(user_active_Iog)一份,里面有2个字段:userlD(用户ID),createdTime(登录时间
戳),需要统计2021年12月连续登录7天的用户数量。

2)分析思路

题目要求的核心是连续登录,那么我们思考,何为连续登录呢? 顾名思义,连续登录就是指登录的日期连续,那么用数据库的语言来表达的话,我们该描述表达日期连续呢? 我们简化一下数据来考虑这个问题,一般我们有2个办法:

方法A:构造一个连续数字构成的辅助列,用原始日期减去辅助列的数字,得到一个新日期,根据这个新日期来判断是否连续。

方法2:构造一个连续日期构成的辅助列,用原始日期减去这个辅助列的日期,得到一个新数字,最后根据这个数字来判断连续。 

一般我们为了方便统计某一起始时间连续登录了多少天,多半采用方案A。

3)解题步骤

我们接着看,刚才知道了如何在SQL里面如何描述连续登录,接下来我们逐步按照题目要求拆解即可:

(a)Step1:选择12月的记录,并根据用户ID和登录日期先去重

(注:单个用户一天有多行登录数据的情况,只保留1行)

运行结果如下:

(b)Step2:创建辅助列a_rk(每个userID下的日期排序值)

运行结果如下:

(c)Step3:创建辅助列起步时间b_createdTime(用登录日期减去排序值,得到新时间列

运行结果如下:

(d)Step4:根据起步时间列统计连续登录天数

运行结果如下:

(e)Step5:根据统计结果查询连续登录人数(题目要求连续7天)

运行结果如下:

二. 近N日留存的用户数及留存率

1)举例题目

现有用户登录表(user_active log)一份,里面有2个字段:userID(用户ID),createdTime(登录时间 戳),需要统计近1、2、3、5、7、30日留存用户数量及留存率。

2)分析思路

题目要求的核心是近N日留存,那么我们思考,何为近N日留存呢?顾名思义,就是指距离某个日期的间隔为N,那么用数据库的语言来表达的话,我们该描述表达近N日留存呢?

我们简化一下数据来考虑这个问题:构造一个起始日期构成的辅助列,用原始日期减去辅助列的日期,得到一个新数字N,根据这个新数字,结合起始日期来判断某个日期的近N日留存。

3)解题步骤

(a)Step1:根据用户id和登录日期先去重

运行结果如下:

(b)Step2:创建新列first_time,获取每个userID下的最早登录日期

运行结果如下:

(c)Step3:创建辅助列delta_time,用登录日期列减去最早登录日期first_time,得到留存天数

运行结果如下:

(d)Step4:按first_time列统计不同留存天数对应的次数和即某日的近N日留存数

运行结果如下:

(e)Step5:用某日的近N日留存数除以首日登录人数即留存率

运行结果如下:

Bye!


http://www.ppmy.cn/server/6185.html

相关文章

超平实版Pytorch CNN Conv2d

torch.nn.Conv2d 基本参数 in_channels (int) 输入的通道数量。比如一个2D的图片,由R、G、B三个通道的2D数据叠加。 out_channels (int) 输出的通道数量。 kernel_size (int or tuple) kernel(也就是卷积核,也可…

MySQL到Doris的StreamingETL实现(Flink CDC 3.0)

MySQL到Doris的StreamingETL实现(Flink CDC 3.0) 1 环境准备 1)安装FlinkCDC [roothadoop1 software]$ tar -zxvf flink-cdc-3.0.0-bin.tar.gz -C /opt/module/2)拖入MySQL以及Doris依赖包 将flink-cdc-pipeline-connector-do…

5.1激光雷达跟随(冰达机器人)

5.1激光雷达跟随功能开发 5.1.1激光雷达跟随功能需求分析 在完成激光雷达跟踪之前,我们先来拆解一下功能。要实现跟随,首先需要确定跟随的目标,在这个例程中,我们使机器人根据离它最近的物体。周围物体的距离可以通过激光雷达测量…

python基础语法+爬虫+图像处理+NumpyPandas数据处理(12天速成,第7天上-爬虫Scrapy)

爬虫(Scrapy):写一段程序代码(网络访问),自动获取网页(网络)上的数据服务端语言:网络编程,都可以作为爬虫java c c python 等均可写爬虫程序js不是一个典型的服务端程序&…

线上研讨会 | 新一代数字化技术赋能机器人及智能产线行业高质量发展

随着智能制造的快速推进,制造业转型升级到了关键阶段。在此背景下,全球各主要经济体积极围绕以工业机器人为主的智能制造业展开激烈竞争。作为打造从“制造”到“智造”的关键基础设施,工业机器人扮演者愈加重要的角色。我国作为工业机器人的…

【2024】深度学习配置环境常见报错,持续更新中....

No such file or directory: ‘:/usr/local/cuda-10.1:/usr/local/cuda-10.1/bin/nvcc‘: 确保CUDA正常后,直接运行以下代码: export CUDA_HOME/usr/local/cuda详细原因参照,安装mmcv-full时报错:Could not build wheels for mm…

TensorFlow 的基本概念和使用场景

TensorFlow 的基本概念和使用场景 TensorFlow 是一个开源的机器学习框架,由 Google 的 Google Brain 团队开发。它广泛用于数据科学、机器学习、深度学习和其他相关领域。以下是一篇关于 TensorFlow 的基本概念和使用场景的概述文章。 1. TensorFlow 简介 Tensor…

在PostgreSQL中如何实现分区表以提高查询效率和管理大型表?

文章目录 解决方案1. 确定分区键2. 创建分区表3. 数据插入与查询4. 维护与管理 示例代码1. 创建父表和子表2. 插入数据3. 查询数据 总结 随着数据量的增长,单一的大型表可能会遇到性能瓶颈和管理难题。PostgreSQL的分区表功能允许我们将一个大型表分割成多个较小的、…