数据工程师的数据治理指南

embedded/2024/12/27 13:38:34/

1.什么是数据治理

“对数据资产管理行使权力、控制和共同决策(规划、监控和执行)。”是 DMBOK 对数据治理的官方定义。然而,在调查这一主题时,我们发现数据治理有多种定义,这些定义大多重叠,但有时又不重叠。考虑到我们希望事情简单易懂,我们认为:

数据治理是一套原则和实践,可确保整个数据生命周期的高质量。它是一个实用且可操作的框架,可帮助利益相关者识别和满足他们的数据需求。

总而言之,数据治理应该服务于所有利益相关者——组织内需要数据的人员(甚至外部,例如如果数据在多家公司之间共享),并且它应该适用于任何组织,无论其主要业务是什么(例如:制造、医药、金融、零售、电信)

话虽如此,当您需要拥有可信、易于获取、可用、集成且安全的数据时,您就会进行数据治理

2.数据治理涵盖哪些内容

您可能想知道这是否是大多数组织已经做的事情,因为谁不确保数据的高质量或遵循一些原则呢?事实是,您可能做了一些属于数据治理的事情,尤其是主数据管理 (MDM),这是任何与数据相关的业务中的关键步骤。然而,数据治理的目的是将所有这些事情“置于一个治理框架之下”,以更好地系统化并推动必要的组织或技术变革,这样所有这些工作就不会白费。其他要素包括风险管理、指标、数据质量、政策、流程等,您可以在下图中看到。

什么不是数据治理

现在我们已经了解了数据治理的基本定义及其涵盖的内容,最好明确说明数据治理不是什么。

  • 数据治理不是一个精确的过程。
    没有任何算法或书籍可以告诉您实现数据治理的具体步骤。正如我们所说,它是一组特定于您的公司和数据的原则,但创建时考虑到了 GDPR、个人信息保护法或其他全球政策。

  • 数据治理不仅仅涉及数据隐私。
    它涉及围绕数据隐私或安全以及部门间数据交换协议实施流程,但正如我们在上一节中所述,它涵盖的内容远不止这些,例如 MDM、组织变革等。

  • 将数据存储在中央存储库或数据湖中不属于数据治理
    但是,控制访问和处理存储库中对您的组织有意义并能带来价值的关键数据是数据治理的一部分。

  • 总之,数据治理不是信息管理者执行的职能,这意味着管理人员和管理者之间必须有职责分离。

3.数据治理的目标

J. Ladley 在他的著作《数据治理:如何设计、部署和维持有效的数据治理计划》中宣称,数据治理的最终目标是让它不再是一个独立的计划,而是成为业务核心的一部分。就像财务控制和事件已经被视为常规活动而不是特殊计划一样。

虽然这是一个伟大的最终目标,但我们需要找到自己的起点并从那里构建流程。我们需要找到几个目标,这些目标将突出这些数据治理活动需要实现的目标,我们稍后可以将其纳入日常流程中。这里我们决定以四个为例。请记住,数据治理是一个量身定制的流程,目标虽然非常相似,但可能因业务和流程而异。

5.需要多长时间、多少钱

既然我们已经了解了数据治理的定义和好处,您可能迫不及待地想尽快开始实施其原则。不过,最后要考虑的两个问题是:实施数据治理需要多长时间,成本是多少?

好吧,坏消息是,第一个问题没有直接的答案,而第二个问题的最简短答案是“很多”。但是,如果做得好,数据治理仍然比支付不实施数据治理的后果要便宜。如果从财务损失来看,我们可以说,仅违反 GDPR 的成本就可能高达 2000 万欧元,占公司全球年营业额的 4%。

现在,首席财务官,您可能想要拿出计算器,将罚款成本与组建团队的成本(好消息是您可能已经制定了一些举措)和实施数据治理进行比较,但在这样做之前,请记住泄露机密或敏感数据的后果可能远比表面上看到的严重,例如客户流失或声誉受损,可能会给您的公司带来进一步的财务损失。

如果您尚未开始数据治理,那么制定计划是一个不错的起点。从小处做起,一步一步来,根据反馈进行改进,并记住数据治理是一个持续和迭代的过程,而不是一次性项目。

有趣的事实

对于那些涉案公司来说,情况并不那么好,但以下是一些知名公司出现问题的例子。

  • GDPR
    不断变化的法规无疑是数据治理的最大驱动力。例如,欧盟的《通用数据保护条例》(GDPR)首次尝试采用近乎全球统一的方法来规范组织使用和存储数据的方式。

  • 根据新法律,谷歌
    数据治理是强制性的,不遵守规定的组织将面临巨额罚款——最高可达 2000 万欧元或公司全球年营业额的 4%。作为参考,GDPR 罚款可能会让 Alphabet(谷歌)的收入减少两个百分点。

  • Equifax
    声誉管理可以成为数据治理实施的巨大推动力。一次备受瞩目的数据泄露事件影响了 Equifax、Uber 和 Yahoo 等公司。所有这些公司都遭遇了代价高昂的公关损失。就 Equifax 而言,数据泄露造成的损失高达 9000 万美元。

  • Netflix
    一位尚未向家人透露其性取向的母亲起诉 Netflix 侵犯隐私,指控这家电影租赁公司在其 100 万美元改进推荐系统的竞赛中,在违背她的意愿的情况下披露了近 50 万客户的不充分匿名信息,从而使她的性取向被人知晓。

下面我们讨论谁进行数据治理以及他们如何进行数据治理


http://www.ppmy.cn/embedded/145604.html

相关文章

蜂鸟视图微程序:低代码赋能室内导航应用开发

随着数字化转型的深入,室内导航应用的需求日益增加。然而,传统的开发模式往往成本高、周期长、门槛高,给企业带来诸多挑战。 蜂鸟视图微程序应运而生,通过低代码技术赋能开发者,快速构建高性能室内地图导航应用&#…

海康萤石摄像机接入EasyNVR流程:开启RTSP-》萤石视频添加到EasyNVR-》未来支持海康SDK协议添加到EasyNVR

EasyNVR目前支持GB28181、RTSP、ONVIF、RTMP(推流)这几种协议接入,目前正在增加海康HIKSDK、大华DHSDK等几种SDK的接入,我们今天就介绍一下萤石摄像机怎么通过RTSP接入到EasyNVR。 第一步:萤石摄像机开启 萤石设备默…

antdv-<a-button>中属性的使用

UI组件库(User Interface Component Library)是一种预先构建好的、可重用的用户界面元素集合,旨在帮助开发者更快速、更简便地构建用户界面。这些组件通常包括按钮、表单、导航栏、模态框等,能够提供一致的外观和交互风格&#xf…

利用GeoWave导入矢量数据到HBase/Accumulo数据库

前言 最近在做有关地理时空大数据的实验,本文将介绍如何利用geowave框架,将矢量数据导入到HBase或Accumulo等NoSQL数据库中。 软件版本: Hadoop: 2.10.2 Zookeeper: 3.6.4 geowave: 1.2.0 Accumulo:1.9.3 HBase: 1.4.0 Ja…

高级java每日一道面试题-2024年12月12日-数据库篇-mysql 深度分页如何优化?

如果有遗漏,评论区告诉我进行补充 面试官: mysql 深度分页如何优化? 我回答: 在Java高级面试中,关于MySQL深度分页优化的提问,是一个考察数据库性能优化能力和对MySQL索引、查询机制理解深度的问题。以下是对MySQL深度分页优化的详细解答&#xff1a…

可信AI与零知识证明的概念

可信AI 可信AI是指人工智能的设计、开发和部署遵循一系列原则和方法,以确保其行为和决策是可靠、可解释、公平、安全且符合人类价值观和社会利益的.以下是关于可信AI的举例说明、实现方式及主流方案: 举例说明 医疗诊断领域:一个可信AI的医疗诊断系统,不仅能够准确地识别…

学习maven(添加依赖坐标,maven的常用命令,依赖传递,解决依赖冲突)

目录 前言 添加依赖坐标 maven 的常用命令 如下图所示:重点是标红的 如何使用这些maven的常用命令呢? 实例 maven常用的命令可以在IDEA中有自带插件来完成 打开IDEA的命令行终端 依赖传递 什么是依赖传递呢? 解决依赖冲突问题 什么…

Vue前端开发-axios对象实例创建和配置的过程

在Vue 3中,由于所有的组件都可能去请求数据,因此,针对axios模块的配置应该是全局性的,在进行axios模块的全局配置之前,需要了解axios实例的创建、配置对象和响应对象的结构内容,接下来我们分别来进行介绍。…