14（第十三章，数据质量）

概述

业务驱动因素

目标和原则

基本概念

数据质量维度

数据质量改进生命周期

数据质量问题的常见原因

数据剖析

活动

工具

有效的数据质量指标

根本原因分析

度量指标

扩展

数据质量作业一般包含的内容：

数据质量规则一般包含的内容：

例如一个数据质量校验：

数据质量提升目标与要求：

数据质量规则八性注解：

质量校验SQL举例：

概述

与数据治理和整体数据管理一样，数据质量（Data Quality）管理不是一个项目，而是一项持续性工作。

业务驱动因素

高质量数据本身并不是目的，它只是组织获取成功的一种手段。

目标和原则

数据质量管理的原则是重要的数据先开始，PDCA过程，评估维度、根因分析、质量报告。

数据质量管理应遵循以下原则：

重要性。数据质量管理应关注对企业及其客户最重要的数据，改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定。
全生命周期管理。数据质量管理应覆盖从创建或采购直至处置的数据全生命周期，包括其在系统内部和系统之间流转时的数据管理（数据链中的每个环节都应确保数据具有高质量的输出）。
预防。数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上，不应放在简单的纠正记录上。
根因修正。提高数据质量不只是纠正错误，因为数据质量问题通常与流程或系统设计有关所以提高数据质量通常需要对流程和支持它们的系统进行更改，而不仅仅是从表象来理解和解决。
治理。数据治理活动必须支持高质量数据的开发，数据质量规划活动必须支持和维持受治理的数据环境。
标准驱动。数据生命周期中的所有利益相关方都会有数据质量要求。在可能的情况下，对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义。
客观测量和透明度。数据质量水平需要得到客观、一致的测量。应该与利益相关方一同讨论与分享测量过程和测量方法，因为他们是质量的裁决者。
嵌人业务流程。业务流程所有者对通过其流程生成的数据质量负责，他们必须在其流程中实施数据质量标准。
系统强制执行。系统所有者必须让系统强制执行数据质量要求。
与服务水平关联。数据质量报告和问题管理应纳入服务水平协议 (SLA)。

基本概念

高质量的数据：数据质量如达到数据消费者的期望和需求。

企业的关键数据：

监管报告；
财务报告；
商业政策；
持续经营；
商业战略，尤其是差异化竞争战略

数据质量维度

有好几套，可以看下，Strong-Wang框架、Thomas Redman的、Larry English的、DAMA UK发布的。

其中DAMA UK发布的白皮书，描述了数据质量的6各核心维度，用的比较多：

数据质量改进生命周期

计划（Plan）阶段。数据质量团队评估已知问题的范围、影响和优先级，并评估解决这些问题的备选方案。这一阶段应该建立在分析问题根源的坚实基础上，从问题产生的原因和影响的角度了解成本/效益，确定优先顺序，并制订基本计划以解决这些问题。
执行（Do）阶段。数据质量团队负责努力解决引起问题的根本原因，并做出对持续监控数据的计划。对于非技术流程类的根本原因，数据质量团队可以与流程所有者一起实施更改。对于需要技术变更类的根本原因，数据质量团队应与技术团队合作，以确保需求得到正确实施，并且技术变更不会引发错误。
检查（Check）阶段。这一阶段包括积极监控按要求测量的数据质量。只要数据满足定义的质量阙值，就不需要采取其他行动，这个过程将处于控制之中并能满足商业需求。如果数据低于可接受的质量闻值，则必须采取额外措施使其达到可接受的水平。
处理（Act）阶段。这一阶段是指处理和解决新出现的数据质量问题的活动。随着问题原因的评估和解决方案的提出，循环将重新开始。通过启动一个新的周期来实现持续改进。新周期开始于:

现有测量值低于闽值
新数据集正在调查中。
对现有数据集提出新的数据质量要求。
业务规则、标准或期望变更。

数据质量问题的常见原因

数据质量问题在数据生命周期的任何节点都有可能出现，如数据输入、数据处理、系统设计、自动化流程中的手动干预问题等。

缺乏领导力导致的问题
数据输入过程引起的问题
数据处理功能引起的问题
系统设计引起的问题

最常见的问题其实就是“缺乏领导力导致的问题”和“企业文化导致的问题”。

数据剖析

数据剖析不是解决数据质量问题的方法，是一种用于检查数据和评估质量的数据分析形式。剖析引擎生成统计信息，分析人员可以使用这些统计信息识别数据内容和结构中的模式。例如：

空值数；
最大/最小值；
最大/最小长度；
单个列值的频率分布；
数据类型和格式。

这个其实有点像我们之前搞的“数据探查”：

活动

这个地方我记了一个概念，POC，即“一个基本的概念证明（Proof of Concept）”，来演示改进进程是如何工作的。

工具