数据资产发现,是什么?

news/2024/9/28 14:34:02/

数据资产发现是一个可视化、智能化的数据管理工具,它的定位是使业务和技术人员能够在需要时更容易找到、理解和使用他们想要的数据。这个概念是不是似曾相识?是的,数据资产发现与数据资产目录在定位上很相似,从本质上讲,数据资产发现就是一种更智能的数据资产目录工具。如果我们将大数据比作石油的话,数据发现就是勘探、采集、处理和炼化石油的过程,它能够更加自动化的识别数据资产,对数据进行迁移、清洗、标记、编目和可视化,从而最大化的释放数据价值。通常来讲,数据资产发现具备如下能力:1、多数据源连接数据资产发现可以连接多个数据源,实现数据的可视化、集成和迁移。支持的数据源除了结构化数据,还能够对非结构化数据、半结构化数据的关键元数据进行识别和采集。
2、元数据分析对元数据信息进行统计分析,可视化展示数据源的元数据,包括数据表的大小、注释、列数量、时间列数量、主键数量等信息,更细一步地,还统计了列级别的元数据,包括列注释、字段类型、列长度、是否主键列等信息。
3、数据分类和编目数据发现与数据分类密切相关,通过自然语言处理、语义解析,根据数据的有用性、敏感性或安全性要求进行识别、分类和编目,形成业务、技术多个视角能够识别、查询和浏览的数据资产目录。
4、清理和准备数据有了数据目录,用户就可以轻松找到想要的数据。但是找到了数据,不一定就意味着它能直接使用,因为这些数据往往还存在很多的质量问题,必须要对这些数据作进一步的清理。数据发现工具一般具备自助数据准备和自动进行数据清理功能,提供有关值域范围、异常值、错误值和其他数据属性和问题的检查和处理,为数据共享和分析提供支撑。5、数据探索数据探索是帮助业务人员整合来自各种来源的数据,以了解数据结构并构建交互式可视化来解释该数据。在数据探索中,用户通过使用人工智能技术,来查看自各种来源的数据,并尝试从这些数据中提取重要或有意义的信息。数据发现工具使用热图、数据透视表、饼图、条形图和地理地图等多种方法来帮助用户从数据中获得洞察力,从而实现业务目标。
02 数据资产发现,发现什么?
很多企业数据资产管理的最大痛点就是数据分散,企业不知道自己有哪些数据可用。企业数据大部分分散在不同的系统、不同的数据源和不同的设备中,识别、分类、处理和分析数据,并从中获得洞察力对任何企业都至关重要。那么,数据发现到底能够发现什么?数据的位置:数据发现通过连接数据源、采集和分析元数据,能够识别企业有哪些数据,并定位这些数据在哪里存放,谁可以访问它。数据的结构:数据发现可以自动解析数据的结构,包括对结构化、半结构化和非结构化数据的的数据特征提取,通过统计模型对数据进行分类。数据的传输:数据发现捕获数据的流向,了解传输哪些数据、如何传输以及通过哪些渠道传输。敏感的数据:数据发现通过内置的数据口径、标准和规则,可以自动识别数据的技术属性和业务属性,可以快速对身份证号码,姓名,地址,手机号、银行账号等敏感信息进行识别、分类和跟踪,方便评估安全或隐私风险并定义缓解策略。数据的问题:数据发现通过数据质量检核,可以对数据集中的数据值域范围、异常值、错误值、重复数据等数据问题进行稽核,快速发现数据集中的问题数据,并执行数据清理,以提高数据质量。数据的含义:数据发现通过丰富的图表,通过可视化的方式展示数据资产地图,直观清晰的展现数据富含的意义、用途等,使得用户可以快速的了解数据,并从数据中获得洞察力。
03 数据资产发现,怎么发现?当下,数据资产发现主要有两种形式:手动发现和智能发现。1、手动数据发现在过去 20 年里,在机器学习进步之前,数据相关工作人员对数据的相关作业,如:发现数据、采集数据、处理数据、分析数据等,大部分需要依靠人类的脑力和体力。简单地说,人们通过人为的方式,识别和记忆关于哪些数据可用,存储在哪里,为什么需要,以及为最终用户提供带来什么价值。后来,企业开始有意识的管理数据,通过监控元数据和数据血缘,发现并了解数据分类和流程。数据管理员,通常是具有复杂技术和知识的人才能胜任,负责企业数据资产的盘点和管理,基于一定业务规则对数据资产进行分类和编目。在这一过程,数据管理员通过手动的方式建立数据目录、绘制数据地图,以理解企业中的数据资产。而这一方式,一直沿用至今。2、智能数据发现大数据时代,数据呈爆炸式增长,且数据在企业业务发展的过程中,扮演的角色越来越重要。传统手动发现数据的方式,在应对企业的数据管理和使用需求,以及大规模、多样化的数据增长情况下,显得越来越吃力。因此,企业迫切需要一种更加自动化、智能化的数据发现工具,来帮助企业从数据中获得更深入的洞察力。随着技术的进步,智能数据发现工具逐步成熟了起来。智能数据发现主要使用增强分析、自然语言处理、机器学习等人工智能技术,对数据进行定位、探查、清理、集成和可视化,来呈现和洞察数据价值。智能数据发现是一个飞跃,通过对可用数据源的整体理解和分析,在黑匣子中进行一些处理并得出合理答案。有了AI的加持,数据发现有了令人兴奋的创新方向:AI 技术可用于数据准备,例如:标准化数据、处理缺失数据、字符串模式识别等。算法可用于识别和关注相关变量组数据中的特定模式或异常值。时间序列分析对模式识别、异常值检测和表关系发现具有不同的需求和意义。可以收集、分析专家用户的行为数据,并用于影响推荐的分析操作。对此,也有一些专家认为数据发现类似于数据挖掘,这是一些公司用来尝试从大型数据集中提取可操作数据的过程。在某些方面,数据发现也可以通过与电子发现(e-discovery)的相似性来解释;例如,在涉及法律领域的电子发现中,指定的 IT 专业人员从可能适用于案件相关的大型数据集中提取数据,辅助办案。数据发现采用了类似的方法——从大量数据中筛选出相关且可操作的数据项。可能有人会问:有了智能数据发现还需要手动数据发现吗?个人认为,现阶段大部分的数据发现还需要人工手动干预,而基于机器学习等人工智能技术的利用可以帮助改进数据发现过程,例如自动发现数据中的数据质量问题、法规遵从性问题等,而数据结果还是需要人为决策。
04 数据资产发现,解决哪些问题?数据资产发现也叫自助式数据探查和分析,从定位上讲,是服务于业务人员,帮助业务人员从数据中获得有价值的信息,这些信息可帮助用户在竞争对手之前发现宝贵的机会,而无需咨询 IT 部门,使得数据分析和使用变得“平民化”。可视化的数据呈现,提高了数据的可操作性,让业务人员能够更快地找到答案。数据发现为企业提供了一种易于理解、清洗和分析数据的友好方法,使用户可以轻松深入研究变量并提出新的问题和见解。1、识别数据应用中的痛点每个企业的数据管理和应用都会有独特的痛点和问题,例如自多个来源的大量数据、复杂的架构、数据安全和法规遵从性等,所有这些都应该得到解决和持续监控。尽可能多地提前识别这些问题,可以帮助企业在问题升级之前解决问题并确保企业的数据保持安全。2、使用多样化的数据源如果企业可以从多个来源收集和使用数据,那就预示着企业可以从中获得更加深入的见解。但是,值得注意的是,企业需要正确处理和使用数据,确保数据完整性、数据质量和个人隐私保护。数据发现有助于企业从不同数据源中收集、清理相关数据,这些数据可以提供大量可操作的信息。3、用企业的数据讲故事数据发现为业务用户提供了自助式数据分析和探索的能力,以可视化的方式进行数据呈现,形成业务人员更容易理解的故事板。直观、可视化的“数据故事板”可以帮助人们理解信息,以及从中得到有价值信息,帮助用户进行决策。例如:数据发现通过对企业多渠道中的客户行为、交易和情绪数据的分析和评估,来获取客户的 360 度视图,在客户流失之前进行预警,从而辅助决策人员作出应对策略。
05 数据发现工具,怎么选?在国外一个数据管理工具评价网站显示,2022年 9个最流行的数据发现工具有:JMP Statistical DiscoveryLookerMicrosoft Power BIPhocasQlik SenseSpirionTableauTIBCO SpotfireAtlan你有没有发现以上数据发现工具其实侧重点并不相同,有侧重数据管理的,也有侧重数据分析的。例如:JMP Statistical Discovery——SAS公司的数据管理产品,是侧重跨数据源数据采集、自助数据准备和自动进行数据清理。而Google Cloud的Looker,微软的Power BI,以及Salesforce的Tableau则更侧重自助式的数据可视化能力。那么,一个数据发现工具到底都应该包含哪些通用功能,企业选型应重点关注哪些方面呢?通过对以上工具的研究,笔者发现一个完善的数据发现工具,需要具备以下功能:数据源连接和元数据采集,包括:结构化、半结构化、非结构化等数据源元数据管理和数据血缘,识别和解析数据的位置、含义等全文元数据搜索,帮助用户快速定位和查找数据敏感信息识别、分类和监控,这对于满足合规性要求非常重要数据准备和提高数据质量的工具机器学习能力,包括预测分析内存分析,实现更快的查询响应时间数据分析和可视化(图表、地图、表格以及其他形式)版本控制,确保数据的完整性并防止意外数据丢失除了以上基本功能之外,在数据发现工具中首先要考虑的是数据治理,企业的数据环境中可能有上百套系统,成千名用户在创建数据,企业必须确保这些数据能够自动化的集中式治理。其次,数据安全和隐私也是需要重点关注的方面,数据发现平台需要提供一定的安全机制,如:用户认证、访问控制、数据脱敏、数据加密等,确保数据安全和合规使用。


http://www.ppmy.cn/news/1531542.html

相关文章

927解决WSL2上UBuntuz终端卡顿

WSL2终端卡顿滞后的优化方法以及WSL2启用systemd – FGP_Blog (goblog.top) 需要耐心等待 配置好后需要在cmd上重启wsl

Python中requests模块(爬虫)基本使用

Python的requests模块是一个非常流行的HTTP库,用于发送HTTP/1.1请求。 一、模块导入 1、requests模块的下载: 使用包管理器下载,在cmd窗口,或者在项目的虚拟环境目录下: pip3 install -i https://pypi.tuna.tsingh…

一个月涨粉15万!霸屏某书的“AI奶奶”怎么做?AI副业变现零基础入门教程

大家好,我是灵魂画师向阳 最近,大家可能在小红书刷到过不少“奶奶"账号。这些账号通常都打着人间清醒xxx的名号,比如人间清醒月亮奶奶 人间清醒柒奶奶 等。它们在小红书上的数据都不错,其中,”人间清醒柒奶奶“一…

Ks渲染做汽车动画吗?汽车本地渲染与云渲染成本分析

Keyshot是一款强大的实时光线追踪和全域光渲染软件,它确实可以用于制作汽车动画,包括汽车模型的渲染和动画展示。Keyshot的动画功能允许用户创建相机移动、物体变化等动态效果,非常适合用于汽车动画的制作。 至于汽车动画的渲染成本&#xff…

图像特征提取-SIFT

文章目录 一、定义与原理二、主要步骤三、特点与优势四、代码运用五、应用领域 图像特征提取中的SIFT(Scale-Invariant Feature Transform,尺度不变特征变换)是一种强大的局部特征提取算法,广泛应用于计算机视觉和图像处理领域。以…

物联网系统中高精度温度检测方案_温度变送器

01 物联网系统中为什么要使用温度变送器 在物联网系统中使用温度变送器的原因主要可以归纳为以下几点: 1、温度监测与控制 实时数据获取:温度变送器能够将温度这一物理量转换为可传输的标准化电信号(如4-20mA电流信号、0-10V电压信号或RS48…

前端必知必会-jQuery 遍历 - 后代

文章目录 jQuery 遍历 - 后代遍历 DOM 树jQuery children() 方法jQuery find() 方法 总结 jQuery 遍历 - 后代 使用 jQuery,您可以遍历 DOM 树以查找元素的后代。 后代是子元素、孙元素、曾孙元素等等。 遍历 DOM 树 用于遍历 DOM 树的两个有用的 jQuery 方法是…

着色器(Vertex Shader)基础

什么是顶点着色器 顶点着色器处理顶点并告知它们在“剪辑空间”中的坐标,该空间使计算机可以轻松了解哪些顶点对摄像机可见,哪些顶点不可见,必须剪切或“剪切”掉。 这使得 GPU 在后期阶段的速度更快,因为它们需要处理的数据较…