数据管理篇之元数据

news/2025/2/11 7:46:38/

第12章 元数据

1.元数据概述

  • 元数据定义
    元数据是关于数据的数据。按照用途可以分为两类:

技术元数据
业务元数据

阿里巴巴常见的技术元数据:

分布式计算系统存储元数据
分布式计算系统运行元数据
数据开发平台中数据同步,计算任务、任务调度等信息
数据质量和运维相关元数据

阿里巴巴常见的业务元数据:

OneData元数据
数据应用元数据

  • 元数据的价值

元数据有重要的应用价值,是数据管理、数据内容、数据应用的基础,在数据管理方面为集团数据提供在计算、存储、成本、质量、安全、治理领域上的数据支持。

  • 统一元数据体系建设

元数据的质量直接影响到数据管理的准确性,如何把元数据建设好将起到至关重要的作用。元数据建设的目标是打通数据接入到加 ,再到数据消费整个链路,规范元数据体系与模型,提供统 的元数据服出口,保障元数据产出的稳定性和质量。
建设思路图:
在这里插入图片描述

2.元数据的应用

  • Data Profile

Data Profile承担的是为元数据“画像”的任务。其核心思路是为繁杂的数据建立一个脉络清晰的血缘图谱。通过计算、标签传播算法等技术,系统化、自动化地对计算与存储平台上的数据进行打标、整理、归档。
Data Profile 开发出了四类标签:
基础标签 :针对数据的存储情况、访问情况、安全等级等进行打标。
数仓标签:针对数据是增量还是全量、是否可再生、数据的生命周期来进行标签化处理。
业务标签:根据数据归属的主题域、产品线、业务类型为数据打上不同的标签。
潜在标签:这类标签主要是为了说明数据潜在的应用场景, 比如社交、媒体、广告、电商、金融等。

在这里插入图片描述

  • 元数据门户

阿里巴巴基于元数据产出的最重要的产品是元数据门户。元数据门户致力打造一站式的数据管理平台、高效的一体化数据市场。包括“前台”和 “后台”:

“前台"产品为数据地图,定位消费市场,实现检索数据、理解数据等“找数据"需求;
“后台"产品为数据管理,定位于一站式数据管理,实现成本管理、安全管理、质量管理等。

  • 应用链路分析

通过应用链路分析,产出表级血缘、字段血缘和表的应用血缘。其中表级血缘主要有两种计算方式:

一种是通过 MaxCompute 任务日志进行解析;
一种是根据任务依赖进行解析。

其中难度最大的是表的应用血缘解析,其依赖不同的应用。按照应用和物理表的配置关系,可以分为配置型和无配置型
常见的应用链路分析应用主要有影响分析、重要性分析、下线分析、链路分析、寻根溯源、故障排查等。

  • 数据建模

传统的数据仓库建模一般采用经验建模的方式,效率较低且不准确。基于现有底层数据已经有下游使用的情况,我们可以通过下游所使用的元数据指导数据参考建模。通过元数据驱动的数据仓库模型建设,可以在一定程度上解决此问题,提高数据仓库建模的数据化指导,提升建模效率。
所使用的元数据主要有:

① 表的基础元数据,包括下游情况、查询次数、关联次数、聚合次数、产出时间等。
② 表的关联关系元数据,包括关联表、关联类型、关联字段、关联次数等。
③ 表的字段的基础元数据,包括字段名称、字段注释、查询次数、关联次数、聚合次数、过滤次数等。

在星形模型设计过程中,可能类似于如下使用元数据。

① 基于下游使用中关联次数大于某个阈值的表或查询次数大于某个阈值的表等元数据信息,筛选用于数据模型建设的表。
② 基于表的字段元数据,如字段中的时间字段、字段在下游使用中的过滤次数等,选择业务过程标识字段。
③ 基于主从表的关联关系、关联次数,确定和主表关联的从表。
④ 基于主从表的字段使用情况,如字段的查询次数、过滤次数、关联次数、聚合次数等,确定哪些字段进入目标模型。

  • 驱动ETL开发

通过元数据,指导ETL工作,提高ETL的效率。
我们可以通过Data Profile得到数据的下游任务依赖情况、最近被读写的次数、数据是否可再生、每天消耗的存储计算等,这些信息足以让我们判断数据是否可以下线;如果根据一些规则判断可以下线,则会通过OneClick触发一个数据下线的工作任务流,数据Owner可能只需要点击提交按钮,删除数据、删除元数据、下线调度任务、下线DQC 监控等一系列操作就会自动在后台执行完成。
在这里插入图片描述


http://www.ppmy.cn/news/4749.html

相关文章

如何给vs2022导入图形库“graphics.h“

目录 问题: 下面是解决办法: 效果图 代码: 先看看我们用图形库做的一个三维旋转球体💡💡💡 三维球体切记,切记,在做这一些列操作之前一定要把vs2022关掉。 问题: 找…

Go 微服务开发框架 DMicro 的设计思路

Go 微服务开发框架 DMicro 的设计思路 DMicro 源码地址: Gitee:dmicro: dmicro是一个高效、可扩展且简单易用的微服务框架。包含drpc,dserver等 背景 DMicro 诞生的背景,是因为我写了 10 来年的 PHP,想在公司内部推广 Go, 公司内部的组件及 rpc 协议都…

高企申报值不值

国家在各个方面给予支持。企业申报成功后不仅可以享受税收优惠、优先拨款等福利政策,同时还能提高企业知名度。 因此,很多企业“费尽心思”去申报高新技术企业。然而,高企申报并不是一件简单的事,2021年申请高企的企业共33163家&a…

多旅行商问题:世界杯优化算法(World Cup Optimization,WCO)求解多仓库多旅行商问题(提供Matlab代码)

一、世界杯优化算法 世界杯优化算法(World Cup Optimization,WCO)由Navid Razmjooy等人于2016年提出,该算法模拟了国际足联世界杯比赛,思路新颖,收敛速度快,全局寻优能力强。 算法原理参考:智…

JVM简单介绍

JVMJVM内存区域划分JVM类加载机制JVM垃圾回收机制【哪些内存需要被JVM中垃圾回收机制回收】【JVM中垃圾回收机制的基本单位】【JVM中垃圾回收机制是如何判断对象是否是垃圾】【如何回收垃圾】JVM 是 Java Virtual Machine 的简称,意为 Java虚拟机。虚拟机是指通过软…

设计模式概述之建造者模式(五)

常说的设计模式是23种设计模式,分为3大类: 创建型模式5种:工厂方法、抽象工厂、单例、建造者、原型 结构型模式7种:适配器、代理、桥接、装饰者、外观、享元、组合 行为型模式11种:模板方法、解释器、策略、观察者、…

十年阿里测试工程师浅谈UnitTest单元测试框架

一、UnitTest单元测试框架提供了那些功能 1.提供用例组织和执行 如何定义一条“测试用例”? 如何灵活地控制这些“测试用例”的执行? 2.提供丰定的断言方法 当测试用例的执行结果与预期结果不一致时,判定测试用例失败。在自动化测试中,通过“断言”…

【数据结构】七大排序算法

文章目录排序算法(1) 直接插入排序(2) 希尔排序(3)选择排序(4)堆排序(5)冒泡排序(6)快速排序(1)hoare法&#…