数据血缘分析

news/2024/11/30 8:33:29/

引入

做过大数据或者接触过数仓的同学,相信都有听到过数据治理、血缘分析的专业术语。不知道大家有没有思考过以下几个问题:
1、什么是血缘分析?主要分析什么东西?
2、为什么要做血缘分析,主要是为了解决什么痛点?做出来之后有什么价值?如何衡量这些价值?
3、如何做血缘分析?
关于第1,2个问题是需要结合每个企业实际的情况来思考,当然分析其本质就是方便数据梳理。那么本篇主要侧重于第3个问题,通过工程+方法论的方式来为读者们揭开血缘分析功能的神秘面纱。

效果展示

关于如何做血缘分析,其实每个企业的做法都大差不差,主要差别在于实现的深度。例如:有的企业是直接引用现有的开源工具,有的企业是结合自身的产品进行自研,有的企业可能只做到表级别,有的企业做到字段级别。那么本篇将会为读者们提供一种表级别粒度的分析功能,并通过可视化的方式为大家展示,当然本篇文章是属于抛砖引玉,主要是给大家提供一种思路。先为读者们展示最终效果图:

执行底层

在数仓工作职责内,大部分都是SQL化,因此血缘分析大多数都是基于SQL解析来做。当然也有非SQL的场景,不过其思想和做法都是一样的,只是API层面的调用不同而已。本篇就以Spa


http://www.ppmy.cn/news/500543.html

相关文章

切换SVN登录的账号

更换SVN的账号 1、找到已登录的用户信息2、删除已登录的用户信息3、获取重输用户信息弹窗4、使用新的用户信息登录 1、找到已登录的用户信息 (1)在任何文件夹里面右键,找到TortoiseSVN,然后选择里面的Settings (2&am…

05-Browserslist

浏览器市场占有率:https://caniuse.com/usage-table。 如何css兼容性和js兼容性下共享我们配置的兼容性条件? 就是当我们设置了一个条件:> 1%;我们表达的意思是css要兼容市场占有率大于1%的浏览器,js也要兼容市场占…

AIGC困局与Web3破圈之道

最近一年,随着 AIGC(AI-Generated Content) 技术的发展壮大,越来越多的人感受到了它的恐怖之处。AI 降低了创作门槛,使每个普通人都有机会展现自己的创造力,做出不输专业水平的作品。但是就在全民 AI 作图的…

USB1.1 hub芯片DPU54兼容AU9254串口usb集线控制器

产品概述 DPU54是一款高性能、低功耗 4 口全速 USB1.1 HUB 控制器,上行端口兼容全速 12MHz 模式,4 个下行端口兼容全速 12MHz、低速 1.5MHz 两种模式。DPU54采用状态机单事务处理架构,而非单片机架构,多个事务缓冲区,这…

TQ2440裸机MMU

1. 内存管理单元MMU介绍 内存管理单元简称MMU,它负责虚拟地址到物理地址的映射,并提供硬件机制的内存访问权限检查。MMU使得每个用户进程拥有自己独立的地址空间,并通过内存访问权限的检查保护每个进程所用的内存不被其他进程破坏。 重点就…

hdu 2242

这题是双连通缩点,缩完点后原图会变成一棵树,这棵树的边就是割边,之后只要dfs一遍这颗树,取最小值即可,这题有个陷阱,就是有重边,显然如果有重边的话,这两个点可以构成双连通&#x…

hdu4217

/* 分析: 线段树。 代码不长,思路都在那个find子函数里面,注意要用64位 整数,至于32位的会不会WA,我没试,也不准备试-、-I,其它 的就没啥用解释的了,看不明白了再留言吧。 2012-10-2…

HDU 2474

这题关键是数据量太大,如果用普通的银行家算法,最坏情况下时间复杂度为O(N*N*M),显然会超时。正确的解法是对每种资源分别考虑,建立M个队列。进程对每种资源的需求数量从小到大存入队列,这样每次只需检查队列头部的进程…