大数据治理入门系列:数据血缘关系

news/2024/11/8 16:39:13/

血缘关系在人类社会中扮演着重要角色。大多数家庭是基于血缘关系形成的,而家庭作为社会的基本单元,对维系社会稳定发挥着重要关系。其实,数据之间也存在类似的血缘关系。数据从产生、加工、流转,一直到消亡,每个环节必然存在一定的联系,这种联系就是数据的血缘关系。

数据血缘关系(Data Lineage) 是对数据在系统内、系统间、业务线之间的流动和转换过程的记录,通过这份记录可以追溯数据的源头,跟踪数据的流转历史,查看数据在某一时刻的状态,寻找数据的最终去向等。数据血缘关系相当于旅游线路图和家谱的结合,既能详细记录数据的出发点、每一个途径点和最终的目的,又能体现数据之间的派生谱系。

img数据在节点之间的移动称为一跳。上图展示了数据从 A1 到 D2 的路线和所经节点,即数据的血缘路径。 第一跳从 A1 到 B, 第二跳从 B 到 C,第三跳从 C 到 D2,其中 A1 是数据的源头,D2 是数据的最终归宿。

特征与构成

数据血缘关系和人类的血缘关系相似,但也存在一些不同。数据血缘关系主要具有以下特点:

  • 归属性:特定的数据通常归属于某个组织或个人
  • 多元性:一个数据可能是由多个不同的数据经过加工合成而来的,例如营业收入来自销量和单价两种数据。
  • 可追溯性:数据血缘关系记录了数据的生命旅途,所以能通过血缘关系追溯数据的来源和加工过程以及最终目的地。
  • 层次性:不同层级的数据描述信息体现了数据血缘的层次性。例如,对数据 A 进行描述可以形成新的数据 B, 数据 A 和 B 就构成了简单的二级层次关系。

数据血缘关系的粒度可以分为字段、数据表、服务器、域名、应用程序、业务线等。一个完整的数据血缘系统需要包括以下元素:

  • 代码扫描器,连接到各种代码仓库
  • 语言解析器,解析语法、词汇、令牌等
  • 图论算法,例如遍历、最短路径等
  • 消费端,将得到血缘关系进行可视化处理或者提供相关报告

方式与工具

数据血缘的获取主要有两种方式:人工收录和程序自动解析。人工采集费时费力,而且容易出错,而程序解析则能很好地避免这些问题,因此自动获取数据血缘的解决方案越来越受到用户的青睐,市场呈现欣欣向荣之态。目前市场上的数据血缘关系解决方案主要有 Collibra MANTA、ASG becubic、Informatica Metadata Manager、Gudu SQLFlow 等。当然也可以基于代码解析器或注解自行研发相应的工具。
在这里插入图片描述

功能与用途

最初需要耗费大量的资源采集数据血缘关系,但这并未阻止数据血缘市场的蓬勃发展。随着大数据时代的来临,数据血缘分析变得愈加重要,推动着相应解决方案的更新迭代,向着自动化方向发展。各种企业机构出于各种各样的原因需要分析数据血缘关系,主要可以概括为以下几方面:

满足数据合规要求

很多数据管理机构以及各种数据治理法规都要求追溯数据的来源,确保数据的合法性。涉及敏感信息的行业需要严格遵守数据合规要求,例如银行、医疗卫生、汽车、社交通信等行业,否则将就会面临巨额罚款。通过数据血缘分析,可以追溯数据源头,确保数据收集的合理合法性。

分析数据变更影响

借助数据血缘分析结果可以分析数据变更的影响,根据血缘分析图中的链路关系可以预测某项变更将影响到下游的哪些数据,以及最终会产生什么样的结果,从而帮助使用者做出更合理的数据决策。

调试/定位/解决业务问题

数据血缘分析详细展示了数据在各个节点之间的路径,提供了数据的观测性。数据出现问题时,可以追踪数据链路,快速定位问题环节。此外,通过分析数据链路也能发现潜在的数据问题。

提升数据透明性

数据治理人员、使用者、以及其他相关人员可以通过血缘分析结果清楚地了解数据的来龙去脉,确保每一次数据变更都符合预期,从而确保数据的产出质量。

提供数据预警

通过数据血缘关系可以监控数据加工链条中的各个节点,并对下油数据产出进行预测分析。一旦发现可能存在延迟或其他问题,就能及时提供预警,便于尽早处理,减少损失。

未来与挑战

目前数据血缘分析仍面临着诸多挑战。例如,没有通用的统一方案可以有效扫描所有技术代码,这进一步导致目前的数据血缘分析系统多是由数种技术综合搭建而成,加剧了整体的复杂性。一些自研技术还需要定制化的解决方案,而开发人员有时又未能遵循相应的代码标准。这些都提升了数据血缘分析的难度。此外,目前很多人对数据血缘的功能认知仅限于监管需要,认识不到其在数据迁移、数据影响分析、数据可靠性、透明性等方面的巨大作用。因此,缺乏足够的投资,严重制约了数据血缘分析行业的发展。

但是随着大数据、深度学习、机器学习、链路预测等技术的发展,数据血缘分析未来会变得更加智能,更广泛地支持实时分析。相应地,更健壮的数据血缘分析体系也必然能推动数据治理的进一步发展,赋能更多的数据治理方案。


http://www.ppmy.cn/news/83233.html

相关文章

【SpringMVC】| SpringMVC拦截器

目录 一:SpringMVC拦截器 1. 拦截器介绍 2. HandlerInterceptor接口分析 3. 自定义拦截器实现权限验证 一:SpringMVC拦截器 SpringMVC 中的 Interceptor 拦截器,它的主要作用是拦截指定的用户请求,并进行相应的预处理与后处理…

Spring Security 如何实现身份认证和授权?

Spring Security 是一个开源的安全框架,提供了基于权限的访问控制、身份认证、安全性事件发布等功能。在 Spring Boot 应用中使用 Spring Security 可以非常方便地实现用户身份认证和授权。 Spring Security 实现身份认证的主要方式是使用认证过滤器链,…

MySQL数据库中,在读已提交和可重复读这两个不同事务隔离级别下幻读的区别

目 录 1. 前 言1.1 并发事务存在的问题1.2 事务的隔离级别1.3 快照读和当前读 2. 不同事务隔离级别下幻读的区别2.1 读已提交下的幻读2.2 可重复读下的幻读2.2.1 情况一,无幻读2.2.2 情况二,有幻读2.2.3 情况三,有幻读 3. 小 结 1. 前 言 在…

基于 Prometheus 的 SLO告警实战

Prometheus是一个流行的开源监控系统,它可以帮助我们收集、存储和查询应用程序或系统的时间序列数据。在使用Prometheus进行监控时,通常需要根据服务水平指标(Service Level Objectives,简称SLO)来设置告警规则。 SLO…

linux学习[11]磁盘与文件系统(2):lsblkblkidpartedfdiskgdiskmkfs

文章目录 前言:1. 磁盘容量1.1 lsblk1.2 blkid1.3 parted 2. 磁盘分区2.1 fdisk/gdisk2.2 磁盘分区实例参考: 3. 磁盘格式化3.1 mkfs.xfs3.2 mkfs.ext43.3 mkfs.vfat 总结: 前言: 写了VMware的磁盘扩容之后,磁盘分区格…

标签派单系统架构设计

需求描述 项目背景 根据员工历史成单情况,计算员工对不同类型工单的转化能力。根据员工和工单标签匹配进行派单。 业务流程图 规则描述 每10分钟,分城进行一次派单,派单规则可能会动态删减,需要支持动态配置 工单标签说明 一…

Nginx Web页面缓存 Rsync远程同步

Nginx Web页面缓存 在http块中加配置: proxy_cache_path /data/nginx/cache levels1:2 keys_zonemy_cache:10m max_size10g inactive60m use_temp_pathoff ##################################### path:强制参数,指定缓存文件的存放路径 …

Spring 条件组件注解:`@Conditional` 与 `@ConditionalOnBean`

Spring 条件组件注解:Conditional 与 ConditionalOnBean 文章目录 Spring 条件组件注解:Conditional 与 ConditionalOnBean一、Conditional 基本使用0、条件组件是在非条件组件注册之后再进行注册的1、概述2、代码演示3、Conditional 的优缺点 二、Condi…