DataWorks+MaxCompute跨年取日期所在周的问题

devtools/2024/9/23 14:13:07/

一、背景

一些数据分析业务需求中,如订单金额、订单数量,时间粒度需要统计到周,如周同比,周环比。
一般我们都会事先创建一个类似如下的时间维度表。

实验SQL环境:DataWorks + MaxCompute

dim_date表清单:

n_dayn_yearn_quartern_monthday_of_monthday_of_weekweek_of_year
2019-12-28201941228652
2019-12-29201941229752
2019-12-3020194123011
2019-12-3120194123121
2020-01-01202011131
2020-01-02202011241
2020-01-03202011351
2020-01-04202011461
2020-01-05202011571
2020-01-06202011612
2020-01-07202011722
2020-01-08202011832
2020-01-09202011942
2020-01-102020111052

在统计中,我们一般会按照 “年-周” 方式来组织成周格式,再与业务事实表join起来进行度量值的聚合计算。
在这个场景下,如果我们还想统计每周的第一天,一段sql如下:

SELECTCONCAT(n_year, '-', IF(LENGTH(week_of_year) < 2, CONCAT('0', week_of_year), week_of_year)) year_week,n_day AS first_day_of_week,day_of_week
from dim_date
WHERE day_of_week = 1
ORDER BY year_week;

以2019年年尾、2020年初数据为例

year_weekn_dayday_of_week
2019-512019-12-161
2019-522019-12-231
2020-022020-01-061
2020-032020-01-131
2020-042020-01-201
2020-052020-01-271
2020-062020-02-031
2020-072020-02-101
2020-082020-02-171
2020-092020-02-241
2020-102020-03-021

你会发现根据这种方式计算,为什么 “2020-01” 的数据消失了?
其实不仅是年初的第1周,而且年尾的第53周也可能会消失。

经过排查,不难发现,这段SQL在统计 2020年第一周的时候,根据sql语句:
CONCAT(n_year, '-', IF(LENGTH(week_of_year) < 2, CONCAT('0', week_of_year), week_of_year))
原本是想构建成“2020-01”这样的year + week 组合,但因为在WHERE子句中限定了“day_of_week = 1”,则在跨年的数据场景中,很可能像笔者构建的样例数据一样,取到了上一年(即2019年)的那条数据,这样组合成了“2019-01”这样的year + week 组合。
这种统计逻辑后患无穷,不仅取不到合理的year + week 组合,且在后续与事实表join后进行统计时,会将原本属于“2020-01”周的数据,错误的统计到“2019-01”中去。

在这里插入图片描述

二、函数 week_of_year

也许大家会有疑问,为什么有时候看到一些年份的元旦前几天,会被算到上一年的最后一周里。

这里有个注意事项

这一周算上一年还是下一年,取决于这一周的大多数日期(4天以上)在哪一年。算在前一年,就是前一年的最后一周;算在后一年就是后一年的第一周。

week_of_year 函数说明
作用:
返回日期date位于那一年的第几周。周一作为一周的第一天。

命令格式:
bigint weekofyear (datetime )

参数说明:
date:必填。DATETIME类型日期值。格式为yyyy-mm-dd hh:mi:ss。如果输入为STRING类型,且MaxCompute项目的数据类型版本是1.0,则会隐式转换为DATETIME类型后参与运算。

返回值说明:
返回BIGINT类型。返回规则如下:

  • date非DATETIME或STRING类型,或格式不符合要求时,返回NULL。
  • date值为NULL时,返回NULL。

三、一种修复方案

借助WEEKOFYEAR函数,我们可以方便获取到任意一天所在的“一年周的第几周”,如果再根据如下结论:

这一周算上一年还是下一年,取决于这一周的大多数日期(4天以上)在哪一年。算在前一年,就是前一年的最后一周;算在后一年就是后一年的第一周。

统计出年初所在的首周位于哪一年,再进行拼装(这里使用YEAR*100+WEEK方法),即可精确算出 “year + week 组合”,一种修复方案如下:

SELECTYEAR(DATE_SUB(NEXT_DAY(n_day,'monday'),4))*100 + WEEKOFYEAR(n_day) year_week,n_day AS first_day_of_week,day_of_week
from dim_date
WHERE day_of_week = 1
ORDER BY year_week;

运行结果:

year_weekn_dayday_of_week
2019-512019-12-161
2019-522019-12-231
2020-012019-12-301
2020-022020-01-061

SQL解析:

  • 1、NEXT_DAY(n_day,'monday') :计算指定日的下一个时间单位(这里指代下一个monday);
  • 2、DATE_SUB(NEXT_DAY(n_day,'monday'),4)) :计算一周的大多数日期(4天以上)在哪一年;
  • 3、YEAR(DATE_SUB(NEXT_DAY(n_day,'monday'),4))*100 + WEEKOFYEAR(n_day) :使用YEAR*100+WEEK思想拼装出“year + week 组合”

http://www.ppmy.cn/devtools/45050.html

相关文章

引领采购数字化变革,商越科技如何帮企业穿越周期?

导读 在企业“降本增效”的路上&#xff0c;采购数字化已经站上C位。采购数字化对企业究竟带来哪些价值&#xff1f; 在中国采购数字化赛道&#xff0c;行业领军者已经出现。 正文 面对经济环境的不确定性&#xff0c;企业都在寻找能够穿越周期的确定性。 “在经济不确定的大…

文件类型有:java,pom,yaml,yml,json,js,html,txt,csv等,找到指定的IP配置

Python 2.7脚本&#xff0c;用于遍历/目录下的文件&#xff0c;过滤出特定类型的文件&#xff0c;并检查这些文件的内容是否包含指定的IP地址模式。如果匹配到IP地址模式&#xff0c;将打印出文件路径。 import os import re# 定义IP地址模式 patterns [r137\.16\.\d\.\d,r13…

失之毫厘差之千里之load和loads

起源 最近在读pandas库的一些文档的时候&#xff0c;顺便也会将文档上的一些demo在编辑器中进行运行测试&#xff0c;其中在读到pandas处理Json数据这一节的时候&#xff0c;我还是像往常一样&#xff0c;将文档提供的demo写一遍&#xff0c;结果在运行的时候&#xff0c;直接…

k-means聚类算法

在Python中&#xff0c;可以使用scikit-learn库来实现k-means聚类算法。scikit-learn是一个强大的机器学习库&#xff0c;提供了许多算法的实现&#xff0c;包括k-means聚类。 以下是使用scikit-learn实现k-means聚类的基本步骤&#xff1a; 安装scikit-learn&#xff1a; 如果…

解析Java中1000个常用类:Cloneable类,你学会了吗?

在 Java 编程中,复制对象是一个常见的需求。为了提供对象的复制功能,Java 引入了 Cloneable 接口和 clone 方法。 本文将深入探讨 Cloneable 接口的功能、用法、实现类及其在实际开发中的应用,帮助程序员更好地理解和利用这一接口。 Cloneable 接口概述 什么是 Cloneable…

民国漫画杂志《时代漫画》第36期.PDF

时代漫画36.PDF: https://url03.ctfile.com/f/1779803-1248636233-8a4a9d?p9586 (访问密码: 9586) 《时代漫画》的杂志在1934年诞生了&#xff0c;截止1937年6月战争来临被迫停刊共发行了39期。 ps: 资源来源网络!

CasaOS玩客云安装全平台高速下载器Gopeed并实现远程访问

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

软考系统分析师难吗?现在开始准备需要多久能考试?

先说结论&#xff1a;作为软考中的高级科目&#xff0c;难度肯定是不小的&#xff0c;一般系分的通过率只有10%-20%&#xff0c;其实和高项差不多。但是系分上限高&#xff0c;知识点不会变来变去&#xff0c;按照套路学就会更有把握。 一、什么是系统分析师 要备考系统分析师…