大数据治理入门系列:数据治理

news/2024/11/30 5:01:05/

在信息经济时代,数据是企业的一大关键资产。为了制定科学、有效、合理的决策,企业需要收集大量的数据并进行各种数据分析,为决策提供依据。在此过程中,收集数据的速度、数据的质量和可靠性、对数据的分析过程、合适的分析工具等,都对最终决策具有显著影响。这些其实都属于数据治理的范围。

img

数据治理的含义

数据治理包含一整套的流程、角色、政策、标准和指标,旨在确保能够高效、有效地利用信息,助力企业实现数据愿景。数据治理具体可以包括以下几个方面:

  • 数据管理:确定数据的所有者/负责人
  • 数据政策:有关数据管理的各类指南、标准、规则等,通常由数据治理委员会制定
  • 数据标准:捕捉数据、记录数据、维护数据的标准
  • 元数据管理:管理有关数据的数据,例如数据库的名称、版本号等
  • 数据血缘关系:借助数据血缘分析工具(例如马哈鱼数据血缘分析器)追踪数据的来龙去脉
  • 数据目录:记录特定范围内所有数据的清单目录
  • 数据质量:通过各类质量指标评估数据质量
  • 数据安全:涉及数据访问管理、个人信息验证等安全相关的控制

简言之,数据治理规定了,谁可以在什么场景下,通过什么方式,对哪些数据采取何种行动。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jQP2fk8p-1685193251536)(https://blog.sqlflow.cn/wp-content/uploads/2022/09/%E4%BC%81%E4%B8%9A%E5%BE%AE%E4%BF%A120220912-224343@2x-1024x500.png)]

为什么需要数据治理

数字时代创造了海量的数据,手机上的各种 APP 就像勤劳的蜜蜂一样乐此不疲地生产数据,导致数据规模一刻不停地疯涨。面对如此之多的数据,如果不加治理,查找数据时不仅效率低下,而且很难保证数据的质量。这就像在杂乱无章的图书馆中寻找一本书,由于图书没有编码、没有分类,没有介绍,你需要不停在书架中穿梭,翻开每一本书查看。一番周折之后,终于找到了你想要的书,但翻看几页之后却发现丢失了很重要的一些内容,这本书如今对你而言毫无价值,花费了大量时间最终却一无所获。

为了避免在数据治理过程中遇到类似的糟糕体验,所以需要对数据进行治理。然而,需要数据治理的原因有很多,上述情形只是触及了冰山的表面。概括来说,需要数据治理的情形主要分为以下几方面。

不同的数据真相

“真相永远只有一个”在名侦探柯南的剧情中永远成立,但对于未经治理的数据而言却并非如此。很多数据机构在过去十几年里都面临的一个问题是,同一数据元素在不同的数据系统中具有不同的值。造成这种现象的原因多种多样,大体包括数据延迟、数据流动路径错误、系统不同步等。

缺席的数据所有者

应用程序所有者、系统所有者、产品所有者均有明确定义。而数据作为程序和系统的基石,却没有明确的所有者。出现问题时无法界定修复责任,无法确定谁来修复,因此进一步造成系统混乱,甚至可能会导致数据遗失。

模糊的数据上下文

有些数据会随着时间的变化而变化,例如每年的收入、支出、负债等。有时这些数据会在短时间内出现显著的增加或减少,后期分析数据时可能难以解释这些变化。因此,需要在数据治理中定义数据上下文,即解释得出某个数据的条件或环境,例如数据的结构、数据量、相关产品的定义、市场范围、宏观的经济环境、政治信息等。有了这些上下文信息就可以解释数据的来源,分析数据的变化,提升数据的可靠性。

不规范的数据文档

数据文档涉及很多内容,包括数据采样、数据收集、数据清洗、数据分析等。标准的结构化数据有利于使用者快速理解数据,降低数据的使用难度。有些数据文档排版美观,配色和谐,看起来很漂亮,但深层次上仍然缺乏一致的文档结构,组织范围内没有明确定义数据集或数据元素的格式。

展望数据治理的未来

Informatica、ASG、IBM 等数据治理领域的头部企业在市场上提供了各种各样的数据治理工具,尝试用最新的科技丰富产品特性,提升竞争力。使用人工智能技术便是其中的重要一环,例如通过 NLP 编制数据目录、通过机器学习追踪数据链路、借助人工智能检测数据质量等。借助强大的科技生产力,以及对数据真相、所有制、上下文、文档等方面的进一步完善,未来的数据收益回报率有望得到大幅提升。

数据治理不仅是对数据的控制和保护,更是对业务的赋能和洞见。


http://www.ppmy.cn/news/95902.html

相关文章

【React】redux和React-redux

🎀个人主页:努力学习前端知识的小羊 感谢你们的支持:收藏🎄 点赞🍬 加关注🪐 Redux和React-redux reduxredux的使用Redux的工作流Redux APIstoreactionreducerstore.dispatch()redux的方法使用 React-Redux…

Linux 软件安装及vim详细用法和配置

文章目录 一、Linux下的软件1、什么是软件包?2、软件安装的三种方法3、yum 安装 lrzsz软件(windows和Linux消息互传)4、深入理解yum源 二、 L i n u x 编辑器 − v i m 使用 Linux编辑器-vim使用 Linux编辑器−vim使用1、vim三种模式作用及其…

Java-软考总结

软考总结目录 宏观  学习感受  阶段划分 微观  1.自己看书和看视频:  2.学习的知识点和课后题进行结合  3.做往年的软考真题  4.提炼出相对来说难以攻克的问题组织分享和讨论  5.小组讨论做错的题并进行结构化 总结学习时间上学习方法上学习形式上 宏…

计算机视觉:卷积核的运行过程

本文重点 我们前面从直观角度理解了卷积神经网络的卷积在特征提取的作用,本节课程我们从数学角度来看一下,卷积是如何计算的? 计算步骤 1. 将卷积核与输入图像的某一部分进行逐元素相乘。 2. 将相乘后的结果求和,得到卷积核在该部分的输出值。 3. 重复以上步骤,将卷积核…

ClickHouse安装部署

—仅供学习 如有侵权 请联系删除– 一、下载 选择Tgz安装包安装 下载地址:Index of /clickhouse/tgz/ 选择stable目录下的安装包,采用21.9.4.35版本,分别是: [roothadoop08 resources]# ll 总用量 1023548 -rw-r--r--. 1 root …

Radxa ROCK 5A 开箱

Rock5 Model A 是一款高性能的单板计算机,它采用了 RK3588S (8nm LP 制程)处理器,具有 4 个高达2.4GHz 的 ARM Cortex-A76 CPU 核心、4 个高达 1.8GHz 的 Cortex-A55 内核和 Mali-G610 MP4 GPU。更重要的是,它还有一个高达 6TOPS …

202312读书笔记|《赶时间的人》——灰暗的从前会成为照亮未来的光,艰难的生活里,诗歌是那陡峭的另一面

202312读书笔记|《赶时间的人》——灰暗的从前会成为照亮未来的光,艰难的生活里,诗歌是那陡峭的另一面 《赶时间的人》 作者王计兵,一个外卖员的诗,饱含对生活的热情,向上的力量,仿若身在炼狱,心…

【Unity100个实用小技巧】世界Canvas自动隐藏,包含子物体

☀️博客主页:CSDN博客主页💨本文由 萌萌的小木屋 原创,首发于 CSDN💢🔥学习专栏推荐:面试汇总❗️游戏框架专栏推荐:游戏实用框架专栏⛅️点赞 👍 收藏 ⭐留言 📝&#…