浅谈数据治理中的智能数据目录

news/2024/11/17 19:27:24/

在数字化转型的战略实施中,很多企业都在搭建自己的业务、数据及人工智能的中台。在同这些企业合作和交流中,越来越体会到数据目录是中台建设的核心和基础。为了更好地提供数据服务,发挥数据价值,用户需要先理解数据和信任数据。 企业拥有什么样的数据,这些数据在哪里,这些数据之间的关系及沿袭,数据是好是坏,这些都是数据目录需要回答的问题。

企业的数据环境具有复杂和多样性,数据分散在成百上千的本地和云端系统之中,其中包括传统的事务性数据库、大数据平台或者数据湖、基于云的市场营销等系统,还有不断涌现的新数据源和应用。人工智能和机器学习可使数据目录 “智能化”,使其具备自动发现,自动数据分类,自动分析和关联的能力,不断满足企业数据管理在处理规模、效率、创新和洞察力等方面的需求。

IBM很早就认识到将机器学习应用到数据管理的重要性,在IBM的Cloud Pak for Data中,机器学习无处不在,遍布数据集成、自动化数据管理、多云数据整合、数据准备、建议和数据洞察,其中Watson Knowledge Catalog致力于改进企业中数据管理者和数据使用者之间的数据流的通信、集成和自动化,被评为机器学习数据目录领导者。

1. 自动数据发现,快速构建数据目录

应对企业复杂和多样的数据环境,智能的数据目录可以自动快速地发现数据并进行识别,包括数据的轮廓,数据的业务含义,数据的分类,数据的质量,数据集之间的关系,是否有隐私或者敏感的数据,能快速地创建数据目录,高效地提供数据准备。

2. 关联数据资产,完整知识图谱

企业的各种信息,不是孤立的个体,之间存在各种的关系,例如业务分类同业务术语,业务术语同技术资产,业务规则同技术规则及数据资产,数据分类同数据资产,数据资产同数据管家等的关系。对于需要理解数据的用户,希望从任一个关注点出发,获取到与其相关的业务上、技术上、管理上等维度的关联的资产信息。

智能的数据目录,先将企业中存在于系统、流程和集体知识中的各类信息集合在一起,分析并关联,将企业的各类数据资产以关系图的形式展开,对于每个用户,可以从中截取自己关注的片段,并可以随信息的拓展而继续探索和发现新的知识,从而更好地理解数据,丰富自己的数据知识体系。

3. 自动数据校验,提升数据质量

在理解数据后,若要使用数据,需要进一步信任数据。数据质量是数据信任的基石,需提供细粒度的量化的数据质量监管和变化追踪,除了内置多种数据质量维度,自动进行数据质量打分外,还需要提供根据数据分类、业务特征、重要性等特定属性自动进行相关的数据规则校验,而不需要考虑数据的来源,大大提高数据管理的效率和范围。

4. 自动分析数据沿袭

用户需要对其数据细致了解,才能对数据更加自信和笃定,才能支撑分析和数据科学。

智能的数据目录能支撑从大量数据源中提取粗粒度—系统和系统之间的,数据集和和数据集合之间沿袭;同时支持细粒度—表和表之间,字段和字段之间的沿袭关系。

5. 智能搜索

无论是业务用户或者技术用户,无论数据处于企业什么位置,或者搜索时候输入模糊或者近似的信息,用户都能搜索到相应的结果,及大量相关联的信息。这些搜索结果会按照信息相关性从高到底给出。用户还可以在图形化的搜索对象上进行深入的展开和探查。对于搜索到的数据资产,用户可以预览数据,了解数据轮廓,进行数据可视化查看,为后续的数据分析和建模准备数据。

智能的数据目录,帮助用户揭示复杂的数据关系,高效创建可信赖的分析基础平台,从数据采集、数据治理到数据自助服务,提供端到端的一站式平台服务。

详情请访问IBM官网页面了解更多内容:IBM Knowledge Catalog


http://www.ppmy.cn/news/1094298.html

相关文章

【数据结构】 七大排序详解(壹)——直接插入排序、希尔排序、选择排序、堆排序

文章目录 🍀排序的概念及引用🐱‍👤排序的概念🐱‍👓排序运用🐱‍🐉常见的排序算法 🌴插入排序🎋基本思想:🛫直接插入排序📌算法步骤&…

【C刷题训练营】第三讲(c语言入门训练)

前言: 大家好,我决定日后逐渐更新c刷题训练营的内容,或许能帮到入门c语言的初学者,如果文章有错误,非常欢迎你的指正! 💥🎈个人主页:​​​​​​Dream_Chaser~ 🎈&…

CyclicBarrier和CountDownLatch

CyclicBarrier: 用于协调多个线程同步执行的操作场合,所有线程等待完成,然后一起执行 使用方式: CyclicBarrier barrier = new CyclicBarrier(3); 定义初始数量,线程数必须达到才能执行 代码示例: public static void main(String[] args) {CyclicBarrier barrier = new…

使用Spring来管理对象关系映射(ORM)

简介 对象关系映射(Object-Relational Mapping,简称ORM)是一种技术,用于在面向对象程序和关系型数据库之间进行数据的映射。Spring框架提供了强大的支持来简化和优化ORM开发过程。本文将介绍如何使用Spring来管理对象关系映射。 …

Redis监控工具_RedisLive

Redis监控工具_RedisLive Redis安装请看: MacBook安装Redis redis集群搭建_亲自操作 RedisLive安装 RedisLive是由python编写的并且开源的图形化监控工具,非常轻量级,核心服务部分只包含一个web服务和一个基于redis自带的info命令以及monitor命令的…

linux文件管理命令

文章目录 先说有用的知识点tree pwd mkdir touch history clear 命令treewhichpwdmkdirtouchhistoryclear 文件类型文件管理命令cdechomv 移动文件cp 复制文件rm 删除文件cat 查看命令head 查看文件的前n行 默认为10tail尾部grep过滤关键字less --分页显示more --分页显示文件内…

Java 和 PHP GC 的差异和差异出现的原因

JAVA 的 GC 处理 判断草死掉的两种方式:引用计数和可达性分析 可达性分析对 JAVA 比较好用的原因是 JAVA遵守这面向对象的严格要求,每个变量都被对象包裹,所以每个变量都能通过对象来进行遍历找到,最终判断他们的是否被引用&…

Magisk隐藏外挂解决方案

自2008年1.0测试版发布以来,安卓系统已经发展了近16年,凭借着优秀的开源生态,安卓系统飞速成长,已经成了当下手机系统中的龙头。据研究机构 Canalys 报告称,今年第一季度安卓设备的整体市场份额占比达到 78 %。 开源生…