前言
在信息化向数字化转型的过程中,企业积累了海量的数据,并且还在爆发式的增长。数据很多,但是真正能产生价值的数据却很少。数据普遍存在分散,不拉通对齐等问题,缺乏统一的定义及架构,找到想要的,能用的数据越来越难。
如何实现数据的汇聚和联接,打破数据孤岛与垄断,就显得格外重要。
一、数据底座的目标
- 统一管理结构化、非结构化的数据,这些都是数据资产,能够追溯到数据的生产者、消费者以及业务源头;
- 打通数据服务供应通道,为数据消费提供丰富的数据原材料、半成品或者成品,满足公司的自助分析、数字化运营等不同场景的数据消费需求;
- 确保公司数据完整、一致、共享。监控数据全链路下的各个环节的数据情况;从存储的角度,诊断数据冗余、重复以及”僵尸“问题,降低数据维度和使用成本;
- 保障数据安全可控,基于数据安全策略,利用数据权限控制,通过数据服务封装等技术手段,实现对涉密数据和隐私数据的合法、合规的消费;
二、数据底座架构图
数据底座的建设不是一蹴而就的,需要统筹推动,以用促建;数据owner是各业务线数据底座建设的第一责任人;建设原则如下:
- 数据安全原则:应遵循用户权限、数据密级、隐私基本等管理要求;
- 需求、规划双轮驱动原则:业务规划和需求双驱动进行建设,对核心数据资产优先建设;
- 数据供应多场景原则:按照业务需要提供不通数据供应通道(离线/实时/物理/虚拟),满足不同的消费场景;
- 信息架构遵从原则:数据底座数据资产应遵从公司的信息架构;
三、数据入湖
数据入湖的标准
- 明确数据owner
- 发布数据标准
- 认证数据源
- 定义数据密级
- 数据质量评估
- 元数据注册
数据入湖的方式
- 批量集成
- 数据复制同步
- 消息集成
- 流集成
- 数据虚拟化
更多内容
大数据-数据湖建设
四、数据主题联接:将数据转换为信息
通过5类联接方式,将不通业务线的数据联接起来,将数据湖中的数据由原材料加工厂半成品、成品,支撑不通场景的数据消费需求;
- 多维模型
- 图模型
- 标签
- 指标数据
- 算法与模型
更多内容
大数据-数据建模&主题联接
参考:
《华为数据之道》