数据质量管理-规范性管理

news/2024/9/23 4:43:08/

数据质量管理简介

数据质量管理是一个持续性的管理动作,有些人在做数据质量管理的时候会陷入一步到位的误区,想要通过一个工具、平台,或者一套质检规则就完成整体的数据质量管理,而实际数据质量管理从数据接入的那一刻就需要介入干预,到最后数据在场景中展示,均需要定期质检。因为数据本身就是流动可持续更新的,且经过数仓分层之后,中间的环节均需要埋入检测点位,这样对于数据质量才有了初步保障。

数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。”

——以上内容摘自百度百科

数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展”。

 石老师在本篇文章中对于数据质量的影响因素和需要配套的制度管理和支撑工具都讲的比较清晰,各位感兴趣可以查看文章详情。数据治理系列5:浅谈数据质量管理">数据治理系列5:浅谈数据质量管理

 根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

本章开始,我们逐一讲解每一个指标在实操过程中怎么去落到数据生产和使用环节,并且形成量化的指标,最后形成质量报告;

今天重点讲解定性指标规范性怎么进行数据监测和指标量化

官方定义:规范性是指数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

作用的环节:数据生产环节,事前规范+上线后定时监督

数据质量管理依据:在实际落地过程中,数据标准、业务规则、权威参考数据的程度三类分别散落在数据治理过程中的治理规则和在数据资源设计之初的数据资产建设手册中。

数据标准、业务规则

数据监测方法:其中「数据标准、业务规则」可以在输出数据治理规则的同时输出反向质检语句,当语句中出现查询结果时则意味着规范性不满足100%;

量化标准:规范性的量化标准既可以按照数据集的记录数占比作为分数,也可以按照查询结果数据记录数分级作为赋分依据;

方法一:

方法二:第一步需要识别数据等级按照字段维度识别出核心数据、重要数据、一般数据,并基于不同的等级给出不同的判断依据,比如核心数据不符合记录数超过100条,则赋分99分,核心数据不符合记录数超过1000条,则赋分90分,重要数据不符合记录数超过1000条,则赋分99分,一般数据不符合记录数超过10000条,则赋分99分等;

权威参考数据

权威参考数据的程度则是需要作为数据质量管理的事前监督,在设计这类业务数据的时候就需要给出参考依据和估算参考比例;

最后基于字段的规范性得分均值赋值为表的规范性得分;

下一章:完整性怎么进行数据监测和指标量化 ?


http://www.ppmy.cn/news/1470288.html

相关文章

搜维尔科技:通过 scalefit 的人体工程学分析或您自己的基于 Movella 动作捕捉的工业运动员测量系统来识别隐藏的健康风险

通过 scalefit的人体工程学分析或您自己的基于 Movella 动作捕捉的工业运动员测量系统来识别隐藏的健康风险 搜维尔科技:通过scalefit的人体工程学分析或您自己的基于Movella动作捕捉的工业运动员测量系统

SCI一区TOP|常青藤优化算法(IVYA)原理及实现【免费获取Matlab代码】

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4 .参考文献5.代码获取 1.背景 2024年,M Ghasemi受到自然界中常青藤生长行为启发,提出了常青藤优化算法(Ivy Algorithm, IVYA)。 2.算法原理 2.1算法思想 IVYA模拟常青…

【杂记-浅谈SNMP网络管理标准协议】

一、SNMP概述、作用、优点 概述 1、SNMP,Simple Network Management Protocol,简单网络管理协议、利用网络管理网络,网络管理员利用SNMP平台在网络上的任意节点完成信息查询、信息修改和故障排查等工作,工作效率得以提高。 2、SN…

DDei在线设计器-UML插件

DDei-UML使用指南 提供了一组UML图形,用于在设计器上绘制和展示UML。DDei-UML默认包含在ddei中,无需单独安装。 如需了解详细的API教程以及参数说明,请参考DDei文档 效果截图 示例一 示例二 使用方式 安装 本插件缺省包含在DDei包中&#…

AI在创造还是毁掉音乐?

简介 最近一个月,轮番上线的音乐大模型,一举将素人生产音乐的门槛降到了最低,并掀起了音乐圈会不会被AI彻底颠覆的讨论。短暂的兴奋后,AI产品的版权归属于谁,创意产业要如何在AI的阴影下生长,都在被更多理…

03 - matlab m_map地学绘图工具基础函数 - 设置坐标系(m_coord)

03 - matlab m_map地学绘图工具基础函数 - 设置坐标系(m_coord) 0. 引言1. m_proj使用方法2. 结语 0. 引言 上一篇介绍了m_proj函数用于初始化投影,本篇介绍的函数m_coord用于初始化地理坐标系或地磁坐标系,地理/地磁坐标系和投影…

B类IP介绍

一、B类ip给谁用: 城域网用的大多就是B类地址。 二、基本介绍 ip地址范围 - 理论范围 128.0.0.0 ~ 191.255.255.255:10000000 00000000 00000000 00000000 ~ 10111111 11111111 11111111 11111111 - 实际(正常情况)可用地址范围…

软件产品进行确认测试有什么好处?第三方软件测试机构分享

软件确认测试是一项旨在验证软件是否符合预期需求和规格的测试活动。通过确认测试,您可以确保软件的功能、性能和用户界面的符合程度,从而降低软件发布后出现问题的风险。 一、软件产品进行确认测试的好处   1、减少软件发布后修复问题的成本。通过及…