数据管理篇之数据质量

news/2024/11/19 11:39:42/

第15章 数据质量

1.数据质量保障原则

完整性
准确性
一致性
及时性

2.数据质量方法概述

  • 消费场景知晓

(1)数据资产定义

分为五个等级:
① 毁灭性质(A1),数据一旦出错,将会引起重大资产损失,面临重大受益损失,造成重大公共风险;
② 全局性质(A2),数据直接或间接用于集团业务和效果的评估、重要平台的运维、对外数据产品的透露、影响用户在阿里系网站的行为等;
③ 局部性质(A3),数据直接或间接用于内部一般数据产品或者运营 / 产品报告,如果出现问题会给事业部或业务线造成影响,或者造成工作效率损失;
④ 一般性质(A4),数据主要用于小二的日常数据分析,出现问题几乎不会带来影响或者影响很小;
⑤ 未知性质(Ax),不能明确说出数据的应用场景,则标注为未知;
注:A1>A2>A3>A4>Ax,如果一份数据出现在多个应用场景中,则遵循就高原则

(2)数据资产等级落地方法

先给不同数据产品或者应用划分数据资产等级,再依托元数据的上下游血缘,可以将整个加工消费链打上某一类数据资产的标签。

  • 数据加工过程卡点校验

(1)在线系统卡点校验

主要是指在在线业务系统的数据生成过程中进行的卡点校验。
问题:在线数据和离线数据的一致性
方法:工具和人双管齐下

工具:首先是发布平台,其次是数据库表的变化感知
人:须知哪些是重要的核心数据资产,须知哪些只是内部数据分析使用

(2)离线系统卡点校验

首先是代码提交时的卡点校验
其次是任务发布上线时的卡点校验
最后是结点变更或数据重刷前的变更通知

  • 风险点监控

(1)在线数据风险点监控

在线业务系统的数据生产过程需要保证数据质量,主要根据业务规则对数据进行监控。阿里巴巴主要采用实时业务检测平台 BCP ,用于保障在线系统的数据质量。

(2)离线数据风险点监控

① 数据准确性

阿里巴巴主要使用DQC来保障数据的准确性。

② 数据及时性

任务优先级:首先确定业务的资产等级,等级高的业务所对应的消费节点自然配置高优先级,一般业务则对应低优先级,确保高等级业务准时产出。
任务报警:和优先级类似,也是通过叶子节点传递;实时监控
摩萨德:根据离线任务的运行情况实时决策是否告警、何时告警、告警方式、告警给谁等。包括强保障监控和自定义监控。

  • 质量衡量

(1)数据质量起夜率
(2)数据质量事件
(3)数据质量故障体系

故障定义
故障等级
故障处理
故障review


http://www.ppmy.cn/news/5574.html

相关文章

通过 Request 请求获取真实 IP 地址以及对应省份城市

title: 通过 Request 请求获取真实 IP 地址以及对应省份城市和系统浏览器信息 date: 2022-12-16 16:20:26 tags: GeoIP2UserAgentUtils categories:开发实践 cover: https://cover.png feature: false 1. 获取真实 IP 地址 1.1 代码 代码如下,这里的 CommonUtil.…

六、http模块

HTTP —— 超文本传输协议,用于规范客户端浏览器和服务端以何种格式进行通信和数据交互;HTTP由请求和响应构成的,是一个标准的客服端服务器模型。 HTTP请求响应过程 先简单的来了解以下HTTP的请求响应过程:1.地址解析&#xff1a…

vue实现将自己网站(h5链接)分享到微信中形成小卡片(超详细)

大家好,我是雄雄。 前言 我们在分享公众号信息到微信或者群中的时候,会出现一个小卡片,如下所示: 但是呢,这种小卡片只能走微信的接口来实现,比如我们从公众号、小程序中分享的内容可以是这样的。如果我们…

python接口自动化测试 - mock模块基本使用介绍

mock简介 py3已将mock集成到unittest库中为的就是更好的进行单元测试简单理解,模拟接口返回参数通俗易懂,直接修改接口返回参数的值官方文档:unittest.mock --- 模拟对象库 — Python 3.11.1 文档 mock作用 解决依赖问题,达到解…

5万字企业数字化运营管理平台软件开发框架项目技术方案

目录 1 项目总体概述 项目总体技术方案保障 系统设计 系统体系结构设计 系统指标保障 系统质量 系统健壮性 系统应具备安全性 系统易用性 系统可维护性 系统完备性 系统可扩展性 系统可测试性 系统可移植性 系统可追踪性 系统易安装性 2 项目技术方案 2.1 系统…

git diff 命令6种使用场景

目录 一、背景&目标 二、git三个区了解 三、git diff 6种场景介绍 3.1 工作区和暂存区差异对比 3.2 工作区和版本库之间差异 3.3 暂存区和版本库之间差异对比 3.4 本地版本库之间提交记录对比 3.5 不同分支对比 3.6 不同分支下同一文件对比 四、git diff 中 -x1,y…

【夜读】2022年最后10天,致自己!

昨日的烦恼,清零 人生这本书,翻过这一页,才能书写下一章。 想想这一年,你是不是曾为了些小事,把心情弄得一团糟:也许是工作中的一次失误,又或是聊天时的一次争执。 2022年的最后10天&#xff0c…

哈斯机床联网

一、设备信息确认 1、确认型号 哈斯的数控面板共有两种情况。 老版本: 新版本: 注:老版本通讯为串口,新版本通讯为网口。 2、确认通讯接口 1、数控面板的后面 老版本的串口一般都会引出在正后面的左侧位置,上面有…