数据治理系列3:数据标准管理

news/2025/1/7 22:12:59/

转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

导读:提到“标准”二字,我们第一时间能够想到的就是一系列的标准化文档,例如:产品设计标准、生产标准、质量检验标准、库房管理标准、安全环保标准、物流配送标准等,这些标准有国际标准、国家标准、行业标准、企业标准等。而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范化体系。

数据标准是什么?

数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。——维基百科。

笔者理解:数据标准是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

企业数据标准管理的内容

1、数据模型标准,即元数据的标准化。自己从事IT行业10多年,一路走来,曾经做开发的时候一度认为数据模型没什么,只不过就是表结构、存储过程的设计,后来接触了数据集成ETL、ESB,虽然也知道ETL脚本本身也是元模型的一部分,但对其重要程度也没放在心上。

后来慢慢发现之前的想法还过于简单,如果把企业信息化比作是人体的话,数据模型就是其骨架,数据之间的关系和流向是其血管和脉络,数据是其血液,数据模型的标准化是其数据血液能够正常流动和运行的根本。数据模型标准是元数据管理的主要内容,是企业数据治理的基础。请参考《数据治理系列2:元数据管理—企业数据治理的基础》

2、主数据和参照数据标准。主数据是用来描述企业核心业务实体的数据,比如客户、供应商、员工、产品、物料等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,被誉为企业的“黄金数据”。参考数据是用于将其他数据进行分类或目录整编的数据,是规定数据元的域值范围。参照数据一般是有国标可以参照的,固定不变的,或者是用于企业内部数据分类的,基本固定不变的数据。个人认为主数据与参照数据的标准化是企业数据标准化的核心。请参考《主数据管理实施四部曲概论》

 

 

3、指标数据标准。指标数据是在实体数据基础之上,增加了统计维度、计算方式、分析规则等信息加工后的数据。指标数据标准是对企业业务指标所涉及的指标项的统一定义和管理。企业的财务、销售、采购、生产、质量、售后等各业务域均分布都有其相应的业务指标。这些指标不仅需要在业务系统中统计和展现还需要在数据分析系统中展现,有的指标数据需要多个从不同的业务系统中进行获取。

 

没有指标数据标准化,你可以想象在每次数据平台有新分析主题构建或旧的分析主题变革,都需要从所涉及的各个系统、库表中进行分析和定义,需要耗费的成本巨大。同时,目前大数据分析都提倡业务人员的自助化分析,没有指标数据标准,业务人员要从不同系统中拿到自己想要的数据进行分析几乎是不可能的。

 

企业数据标准的梳理

企业数据标准项目的实施,要根据业界经验和企业实际情况确定实施范围,并根据优先级和难易度制定计划。需要从企业业务域、业务活动、对象实体、实体关系等方面层层递进,逐步展开。对于数据梳理的方法主要用到IRP(企业信息资源规划)和数据仓库的数据梳理法。这两种方式我在《主数据管理实施四部曲概论》的文章进行过分享,有兴趣可以关注。

 

企业数据标准梳理一般需要以下步骤:

 

 

首先,对企业业务域进行定义,并对每个业务域中的业务活动进行梳理,同时需要收集各类业务单据、用户视图,梳理每个单据和用户视图的数据对象。

 

其次,针对数据对象的进行分析,明确每个数据实体所包含的数据项,同时,梳理并确定出该业务域中所涉及的数据指标和指标项。分析并定义每个数据实体或指标的数据项标准,包括:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围、管理部门等。

 

第三,梳理和明确所有数据实体、数据指标的关联关系,并对数据之间的关系进行标准化定义。数据关系也是数据标准管理的内容。

 

第四,通过以上梳理、分析和定义,确定出主数据标准管理的范围。

 

数据标准梳理和建设的方法并不难掌握,关键是建设过程中需要收集并整理大量的业务规范、制度章程、法律法规、监管规定、国家标准,并将这些规定具象到数据标准定义的信息项中。对于一个从未做过数据标准的实施团队而言,这将意味着巨大的工作量。

 

数据标准管理组织

数据标准管理是企业数据治理的一部分,数据标准管理是一个涉及范围广、业务复杂、数据繁杂的工程。数据标准管理的实施绝非是一个部门的事情,不能在企业的单一部门得到解决。需要从整个组织考虑,建立专业的数据治理组织体系,制定企业数据战略和实施路线图,明确各阶段数据标准工作的目标和内容,并监督及考核数据标准的贯彻与执行。

 

数据标准管理组织或数据治理组织从职能划分上可以分为三层,如下图所示:

 

1、数据标准管理委员会,即数据治理的决策层,主要负责制定企业数据战略、把控数据治理的总体策略,审查数据标准的贯彻执行情况。

2、数据标准管理办公室,是数据治理的经营管理层,主要负责企业数据标准的制定、审查数据质量,贯彻数据标准落地。

3、数据标准执行层或业务操作层,主要负责数据标准的贯彻执行,并为数据标准的编制和优化提供数据和意见。

 

数据标准设计流程

数据标准的设计从需求发起到落地执行,一般需要经过标准编制、标准审查、标准发布、标准贯彻四个阶段:

 

 

1. 数据标准编制:数据标准管理办公室根据数据需求开展数据标准的编制工作,确定数据数据项,数据标准管理执行组根据所需数据项提供数据属性信息,例如:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围等。数据标准管理办公室参照国际、国家或行业标准对这些数据项进行标准化定义并提交审核。注:如没有参考标准,则数据标准管理办公室可根据企业情况制定相应的企业级数据标准。

 

2. 数据标准审查:数据标准管理委员会对数据标准初稿进行审查,判断数据标准是否符合企业的应用和管理需求,是否符合企业数据战略要求。如数据标准审查不通过,则有数据标准管理办公室进行修订,直到满足企业数据标准的发布要求。

 

3. 数据标准发布:数据标准审查通过后,由数据标准管理办公室面向全公司进行数据标准的发布。该过程数据标准管理执行组需要配合进行数据标准发布对现有应用系统、数据模型的影响评估,并做好相应的应对策略。

 

4. 数据标准贯彻:把已定义的数据标准与业务系统、应用和服务进行映射,标明标准和现状的关系以及可能影响到的应用。该过程中,对于企业新建的系统应当直接应用定义好的数据标准,对于旧系统应对一般建议建了相应的数据映射关系,进行数据转换,逐步进行数据标准的落地。

 

企业进行数据标准化时,除了对数据本身标准化规则构建外,相当大一部分需要考虑标准化流程的管理。而在管理过程中必然会涉及到新旧系统、不同部门、不同业务的冲突,这些冲突如果解决不好将会直接导致标准化的失败。所以,数据标准落地过程要充分做好影响评估和各干系方的沟通。

 

数据标准管理价值总结:

一个数据一般有业务属性、技术属性和管理属性组成,例如:数据项的业务定义、业务规则、质量规则为该数据的业务属性;数据项的名称、编码、类型、长度等为该数据的技术属性;数据的存储位置、管理部门、管理人员为该数据的管理属性。而数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程。

 

数据标准目标是为业务、技术和管理提供服务和支持。

业务方面:通过对实体数据的标准化定义,解决数据不一致、不完整、不准确等问题,消除数据的二义性,使得数据在企业有一个全局的定义,减少了各部门、各系统的沟通成本,提升企业业务处理的效率;标准统一的数据指标体系,让业务人员也能够轻松获取数据,并能够自助式的进行数据分析,为基于数据的业务创新提供可能。

技术方面:统一、标准的数据及数据结构是企业信息共享的基础;标准的数据模型和标准数据元为新建系统提供支撑,提升应用系统的开发实施效率;数据标准化清晰定义数据质量规则、数据的来源和去向、校验规则,提升数据质量。

管理方面:通过数据的标准化定义,明确数据的责任主体,为数据安全、数据质量提供保障;统一、标准的数据指标体系为各主题的数据分析提供支持,提升数据处理和分析效率,提供业务指标的事前提示、事中预警、事后提醒,实现数据驱动管理,让领导能够第一时间获取决策信息。

 

数据标准与主数据、元数据、数据质量的关系

 

数据治理项目的根本诉求在于提升数据质量

 

数据标准与主数据的关系

从范围上看,数据标准包括数据模型标准、主数据标准、参照数据标准、数据指标标准和其他数据元标准,主数据是数据标准的一个子集;从数据梳理和识别、能力成熟度评估、数据标准编制、数据管理和应用、管理体系建设、实施涉及的业务面等方面,数据标准和主数据都是基本相同的。企业在数据治理项目中,有整体建设的,包含了:元数据、主数据、数据标准等领域;也有分开建设的,例如:主数据项目单独立项,数据标准管理和数据仓库放在一起实施;企业应根据自身的实际情况和需求,明确实施范围和内容,制定适合企业发展需要的数据治理路线图。

 

数据标准与元数据的关系

元数据是数据标准的基础,企业在制定数据标准的时候最先需要明确的就是数据业务属性、技术属性和管理属性,而这三类属性就是我们所说的业务元数据、技术元数据和管理元数据。基于元数据的数据标准管理,为业务实体的定义、关系和业务规则到IT实现之间提供清晰、标准的语义转换,提高业务和IT之间的一致性,保障IT系统能够真实反映业务事实。并为数据标准系统与其他业务系统的集成,提供有关数据标准、数据映射关系和数据规则的描述,为业务系统的集成提供支撑。

数据标准与数据质量的关系

没有标准化就没有信息化,那就更谈不上数据质量了。通过对数据标准的统一定义,明确数据的归口部门和责任主体,为企业的数据质量和数据安全提供了一个基础的保障。通过对数据实体、数据关系以及数据处理阶段,定义统一的标准、数据映射关系和数据质量规则,使得数据的质量校验有据可依,有法可循,为企业数据质量的提升和优化提供支持。

(文:石秀峰 2019年5月)

注:本文的首发平台为微信公众号:learning-bigdata(谈数据),如需要了解第一手数据治理相关内容,请关注微信公众号,CSDN微博不定期更新。

欢迎转载,转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)


http://www.ppmy.cn/news/501329.html

相关文章

Java系列(3)

Java系列 第三章 运算符 文章目录 Java系列思维导图(回顾)一、算数运算符二、赋值运算符三、关系运算符四、逻辑运算符五、条件运算符六、运算符优先级总结 思维导图(回顾) 一、算数运算符 Java中算术运算符包括“,-…

GNN笔记系列 3

GNN笔记系列 2 1.Graph1.1Directed Graphs1.2Symmetric Graphs1.3Unweighted Graphs 2.Graph Shift Operators(GSO)2.1Degree Matrix2.2Laplacian Matrix2.3Graph Shift Operator S S S 3.Graph Signals4.Graph Convolutional Filters5.Time convolutions and graph convoluti…

IEC60364中的2系列和3系列哪里去了

IEC60364是TC64委员会发布的名称为“建筑物的电气装置”的一系列标准。 这本标准目前包含有第一,第四,第五,第六,第七和第八部分,唯独没有第二和第三部分,为什么独独缺少这两部分呢,原来是最早…

Spring Boot系列3

Spring Boot系列3 1 关于Spring Boot自动配置的理解1 Java配置2 条件化Bean1 注解Conditional2 条件注解使用案列3 条件配置类ConditionalConfig4 组合注解 3 Spring Boot自动配置过程1 EnableAutoConfiguration 注解说明2 spring. factories文件 4 总结 1 关于Spring Boot自动…

Vue 3系列之03——Vue 3使用TypeScript

随着应用规模的增长,越来越多的开发者认识到静态语言的好处。静态类型系统可以帮助防止许多潜在的运行时错误,这就是为什么Vue 3是用TypeScript编写的。这意味着在Vue应用开发中,使用TypeScript进行开发不需要任何其他工具。TypeScript在Vue …

Neo4j使用系列3

Part3 Neo4j安装及简单使用 There are two editions of Neo4j to choose from, the Community Edition and the Enterprise Edition. The Enterprise Edition includes all that Community Edition has to offer, plus extra enterprise requirements such as backups, clus…

python系列教程3

朋友们,如需转载请标明出处:https://blog.csdn.net/jiangjunshow 声明:在人工智能技术教学期间,不少学生向我提一些python相关的问题,所以为了让同学们掌握更多扩展知识更好的理解人工智能技术,我让助理负责…

【立体视觉(四)】之极线校正与双目视觉

【立体视觉(四)】之极线校正与双目视觉 一、极线校正一)Fusiello校正法1. 转换矩阵计算1)计算旋转矩阵 R n R_n Rn​2)计算内参矩阵 K n K_n Kn​3)计算转换矩阵 T T T 2. 核线影像生成 二、双目视觉 此…