提升数据质量的四大有效方式

news/2025/1/15 17:27:06/

在数字时代的今天,企业对于高质量、值得信赖的数据的需求越来越高。

目前,已经有很多企业将数据质量视为技术问题而非业务问题,这也是获取高质量数据的最大限制因素。只有查找技术缺陷,例如重复数据、缺失值、乱序序列,以及与历史数据预期模式的偏差无疑是至关重要的,但这也仅是第一步。一个更加苛刻和关键的步骤,便是衡量业务质量,检查数据是否上下文正确。

让我们看看提高现代数据质量的四大有效方式:

1)自上而下的业务如果数据质量——这个词从未被创造出来,而“业务质量”是目标,也许 IT 团队更加会受益。在那种情况下,确保数据正确的主要理由本来是为了确保业务成果得到满足。在这种情况下,需要重点从数据的基础设施转移到它的上下文。

但“上下文”到底是什么?

它是业务当中对数据的应用。例如,不同业务部门对“客户”的定义可能不同。对于销售来说,是买家;对于营销来说,是影响者;对于财务来说,是买单者。因此,上下文的变化取决于谁在处理数据。为此,数据质量需要与上下文保持同步。

在另一个例子中,国家代码 1 和地区美国与加拿大可能看起来类似,但事实并非如此。不同的团队可以出于截然不同的目的使用一个表格中的相同列。因此,数据质量的定义各不相同。为此,就需要在业务上下文级别应用数据质量。

2)产品思维——数据网格原则上引发的概念非常引人注目,他们改变了我们的思维方式,使那些在实践中可能行不通的旧方法在今天也能奏效。最大的变化是我们对数据的看法:作为一种产品,必须在管理时考虑到用户及其期望的结果。

任何企业正在应用产品管理实践来使他们的数据资产可用。 “数据产品”的目标是通过让不同的消费者群体更容易地消费和分析,以此来鼓励“可信数据”的更高利用率。反过来,又提高了企业以极低的方式从其数据资产中快速提取情报和见解的能力。

同样,数据质量也应该采用相同的产品管理原则来处理。数据生产者应发布一份“数据合同”,列出向消费者承诺的数据质量水平。通过将数据质量视为最重要的资产,生产者应该了解数据的使用方式及其质量的影响。数据产品的数据质量SLA旨在确保消费者了解数据新鲜度等参数。

3)数据可观察性——通常,数据消费者是第一个发现异常的人,例如 CFO 在仪表板上发现错误。如果这种情况发生,那么IT 团队将进入了一种被动的救火模式,试图检测复杂架构中错误出现的位置。

数据可观察性通过持续监控数据管道并使用先进的 ML 技术快速识别异常,甚至主动预测异常来填补空白,以便在问题到达下游系统之前对其进行补救。

数据质量问题可能发生在管道中的任何地方。但是,如果越早发现问题,修复成本就会越低。因此,采用“左移”的理念。数据可观察性产品通过以下方式提高数据质量:

·数据发现从数据源和数据管道的所有组件(例如转换引擎和报告或仪表板)中提取元数据。

·监控和分析——针对动态和静态数据,使用中的数据如何?

·预测性异常检测 - 使用内置。

·警报和通知

数据质量是数据可观察性的基础部分,下图显示了数据可观察性的总体范围。

4)整体数据治理——数据质量子系统与整体元数据管理密不可分。

一方面,数据目录存储定义或推断的规则;另一方面,DataOps 实践生成进一步细化数据质量规则的元数据。数据质量和 DataOps 确保数据管道以自动方式使用正确的规则和上下文进行持续测试,并在推断出异常时发出警报。

事实上,数据质量和 DataOps 只是元数据众多用例中的两个。现代数据质量与这些其他用例集成在一起,如下图所示。

将数据质量合并到数据治理的其他方面的综合元数据平台可改善业务用户(例如数据使用者与数据产品的生产者和维护者)之间的协作。它们共享相同的上下文和指标。

这种紧密集成有助于采用左移方法来提高数据质量。持续测试、编排和自动化有助于降低错误率并加快数据产品的交付。需要这种方法来提高对数据团队的信任和信心。

可以说,这种集成是企业采用数据产品、数据网格和数据共享选项(如交易所和市场)的现代数据交付方法的垫脚石。


http://www.ppmy.cn/news/994732.html

相关文章

Restful Api接口对接Java后台返回实体格式封装JsonWrite

Restful Api接口对接Java后台返回实体格式封装JsonWrite 概要介绍案例小结 概要 提示:在进行Java前后端分离开发项目中大多数都会使用的是Restful风格对接接口!这就需要前后端开发人员进行详细的对接以及接口说明,虽然现在有很多的接口说明文…

centos动态内网IP如何改静态

要将CentOS从动态内网IP改为静态IP,需要按照以下步骤进行操作: 打开终端并以root用户身份登录。 编辑网络配置文件。在终端中输入以下命令: vi /etc/sysconfig/network-scripts/ifcfg-eth0 这个命令将打开eth0配置文件。如果您的网络接口…

用python需要下载软件吗,python需要安装哪些软件

大家好,本文将围绕安装python需要什么样的电脑配置展开说明,python需要安装哪些软件是一个很多人都想弄明白的事情,想搞清楚用python需要下载软件吗需要先了解以下几个事情。 编程这东西很神奇。对于那些知道如何有用和有趣的这个工具,对于Xi…

Echarts 柱状图显示百分比

以下是生成的 option option {yAxis: { name: 金额(元), type: value },xAxis: { type: category },legend: {},series: [{stack: x,name: 早餐,label: {normal: {show: true,position: insideRight,// 格式化显示formatter: function (params) {let …

复习之linux高级存储管理

一、lvm----逻辑卷管理 1.lvm定义 LVM是 Logical Volume Manager(逻辑卷管理)的简写,它是Linux环境下对磁盘分区进行管理的一种机制。 逻辑卷管理器(LogicalVolumeManager)本质上是一个虚拟设备驱动,是在内核中块设备和物理设备…

Vue前端框架入门

文章目录 Vue快速入门Vue指令生命周期 Vue 经过一小段时间学习 我认为vue就是在原js上进行的一个加强 简化JS中的DOM操作 vue是分两个层的 一个叫做视图层(View),你可以理解为展现出来的前端页面 一个叫数据模型层(Model),包含数据和一些数据的处理方法 MVVM就是实…

JVM总结笔记

JVM JVM是什么?JVM 的主要组成部分JVM工作流程JVM内存模型直接内存与堆内存的区别:堆栈的区别Java会存在内存泄漏吗?简述Java垃圾回收机制垃圾收集算法轻GC(Minor GC)和重GC(Full GC)新生代gc流程JVM优化与JVM调优 JVM是什么? JVM是Java Virtual Mach…

国家金融监督管理总局明确将数据安全管理纳入操作风险管理范畴

为进一步完善银行保险机构操作风险监管规则,提升银行保险机构的操作风险管理水平,国家金融监督管理总局起草了《银行保险机构操作风险管理办法(征求意见稿)》(以下简称《办法》),现向社会公开征…