华为数据之道-读书笔记

内容简介

关键字

数字化生产

已经成为普遍的商业模式，其本质是以数据为处理对象，以ICT平台为生产工具，以软件为载体，以服务为目的的生产过程。

信息与通信技术平台（Information and Communication Technology Platform,ICT）

数据孤岛

IT系统中的数据语言不统一，不同I系统之间的数据不贯通，同样的数据需要在不同TT系统中重复录入，甚至不同I系统中的同一个数据不一致等。这些问题限制了运营效率的提升和效益的改进，华为迫切需要数字化转型来改变这种状况。

数字化转型（怎么做）

ToB / ToC

数据入湖

数据入湖 是指将数据从各种数据源（如数据库、文件系统、实时流数据等）导入到 数据湖 中的过程。数据湖是一个存储系统，能够以原始格式保存海量结构化、半结构化和非结构化数据，为后续的数据分析、机器学习和数据驱动决策提供支持。

数据消费

数据消费 是指在数据生态系统中，用户或系统通过对数据的访问、分析和处理，从而获取有价值的信息，用于支持决策、优化业务流程或推动创新。它是数据生命周期的重要阶段，通常紧接在数据存储（如数据湖或数据仓库）之后。

数据消费的核心含义

数据消费的本质是将存储在数据平台中的原始数据转化为对业务有意义的洞察和价值。
数据消费的形式可以多种多样，比如生成报表、构建机器学习模型、驱动实时决策等。

数据消费的常见形式

报表与可视化：
- 数据被消费为可视化的报表和图表，用于业务监控和决策支持。
- 工具：Power BI、Tableau、FineBI 等。
- 例子：通过销售数据生成月度销售报表。
业务分析与洞察：
- 利用统计学或分析工具，对数据进行深度挖掘。
- 工具：Excel、Python（Pandas、Matplotlib）、R 等。
- 例子：分析用户行为数据，发现客户流失的原因。
实时数据处理：
- 消费实时流数据，支持快速响应和实时决策。
- 工具：Kafka、Spark Streaming、Flink 等。
- 例子：实时监控物流运输状态。
数据驱动的自动化：
- 数据直接被系统或服务消费，用于触发自动化流程。
- 例子：银行的风控系统根据用户交易数据自动判定风险。
机器学习与AI模型：
- 数据作为模型训练的输入，驱动机器学习或人工智能应用。
- 工具：TensorFlow、PyTorch、Scikit-learn 等。
- 例子：根据历史数据训练模型预测未来销售趋势。
API 数据消费：
- 数据通过 API 提供给应用程序消费。
- 例子：电商平台通过 API 查询库存数据并更新页面。

数据消费的技术架构

数据消费通常依赖于以下技术架构：

数据湖与数据仓库：
- 数据消费的基础是数据存储。数据湖存储原始数据，数据仓库存储加工后的结构化数据。
- 工具：Hadoop、Amazon S3、Snowflake 等。
数据集成与查询：
- 数据通过 ETL 或 ELT 流程集成，并通过查询工具消费。
- 工具：Presto、Hive、BigQuery 等。
数据可视化平台：
- 将复杂数据呈现为易于理解的图表或仪表板。
- 工具：Tableau、Power BI、Grafana 等。
实时流处理：
- 实时数据的消费需要强大的流处理能力。
- 工具：Kafka、Flink、Spark Streaming 等。

数据消费的挑战

数据质量：
- 如果数据不准确、不完整或不及时，会直接影响消费结果的可靠性。
访问性能：
- 当数据量过大时，如何高效查询和处理数据是一个难题。
安全与隐私：
- 数据消费涉及敏感数据时，如何确保合规性和安全性。
数据孤岛：
- 数据分散在多个系统中，导致消费过程中难以整合。

数据底座

数据底座 是一个支持企业数字化转型的核心技术平台，用来统一管理、存储和处理企业所有的数据资源。它是企业实现数据驱动决策、智能化应用的基础设施，类似于建筑物的地基，支撑着上层的各种数据应用。

数据底座的主要组成部分

数据存储：
- 数据底座需要存储结构化、半结构化和非结构化数据，通常包括以下系统：
  - 数据湖：存储原始的、海量的多种数据类型。
  - 数据仓库：存储经过处理和结构化的数据，用于高效分析。
  - 云存储：灵活支持弹性存储（如 AWS S3、阿里云 OSS）。
数据集成：
- 将企业的多种数据源（如数据库、日志系统、实时流数据）统一整合到数据底座。
- 工具：ETL（提取、转换、加载）工具（如 Apache NiFi、Informatica）。
数据治理：
- 确保数据的质量、规范性和安全性。
- 包括数据清洗、数据标准化、元数据管理、数据权限控制。
数据分析与服务：
- 支持多种数据分析需求，包括统计分析、机器学习、实时处理等。
- 提供数据 API 和服务，支持上层应用调用数据。
数据安全：
- 实现数据加密、访问控制、日志记录，确保数据合规性和安全性。
开发与运维支持：
- 为数据科学家、分析师和开发者提供统一的平台工具（如 Jupyter Notebook、BI 工具）。

ETL（提取、转换、加载）

ETL 是指 提取（Extract）、转换（Transform）、加载（Load），是一种将数据从一个或多个来源提取出来，经过转换处理后加载到目标系统（如数据仓库、数据湖）的数据集成过程。ETL 是数据处理的重要环节，广泛用于数据仓库建设、数据分析和业务报表生成。

ETL 的三个主要步骤

提取（Extract）：
- 从多个数据源中获取原始数据，包括结构化数据（如数据库表）、半结构化数据（如 JSON、XML）和非结构化数据（如文本、日志）。
- 数据源示例：
  - 数据库（MySQL、Oracle、PostgreSQL）
  - 文件系统（CSV、Excel）
  - API 或实时流（如 Kafka）
- 目标是尽可能完整地提取数据，同时避免影响源系统性能。
转换（Transform）：
- 对提取的原始数据进行清洗、规范化和处理，以满足目标系统的要求。通常包括以下操作：
  - 数据清洗：处理空值、重复值、异常值。
  - 格式转换：统一日期格式、单位等。
  - 数据聚合：计算总数、平均值等。
  - 维度处理：将数据映射到维度表或事实表。
  - 业务规则应用：根据业务逻辑衍生新字段或分类数据。
加载（Load）：
- 将转换后的数据加载到目标系统中，如数据仓库（如 Snowflake、Redshift）或数据湖（如 Hadoop、S3）。
- 加载方式：
  - 全量加载：每次将所有数据重新加载到目标系统。
  - 增量加载：只加载新增或更新的数据。
- 确保数据加载的完整性和准确性。

IoT数据

IoT数据（Internet of Things 数据）是指由物联网设备生成、收集和传输的数据。这些设备通过网络互联，可以实时感知、监测和传输信息，从而为数据分析和智能化应用提供支持。

IoT 数据的来源

IoT 数据主要来源于各种连接到互联网的设备和传感器，这些设备可以分为以下几类：

工业设备：
- 工厂中的机器、机器人、设备传感器。
- 例如：温度、压力、振动传感器。
智能家居设备：
- 智能音箱、智能门锁、智能灯泡、智能电表。
- 例如：记录室内温湿度、用电量、用户行为等。
可穿戴设备：
- 智能手表、健身追踪器。
- 例如：记录心率、步数、睡眠数据。
交通工具：
- 车辆中的 GPS、车载诊断系统（OBD）。
- 例如：车辆位置、速度、燃油使用情况。
环境监测设备：
- 气象站、空气质量监测仪。
- 例如：二氧化碳浓度、噪声水平、降雨量。
物流与零售：
- 包括物流追踪器、智能货架、RFID 标签。
- 例如：商品库存、运输位置、存储条件。

IoT 数据的特点

实时性：
- IoT 数据通常以流数据的形式实时产生，适合用于实时监控和快速响应。
- 例如：传感器每秒传输一次温度数据。
多样性：
- IoT 数据可以是结构化、半结构化或非结构化的，包含数值、文本、图片、视频等。
- 例如：结构化的电量数据，非结构化的设备日志。
海量性：
- 由于设备数量庞大，数据生成频率高，IoT 数据通常呈现出“数据爆炸”的特点。
- 例如：一台传感器每天产生上 GB 的数据。
分布式来源：
- 数据来自分布在不同地点的设备，具有高度分散性。
- 例如：不同城市的环境监测设备生成的数据。
时序性：
- 数据通常是以时间序列形式产生，带有时间戳，用于分析变化趋势。
- 例如：每天记录温度变化曲线。

IoT 数据的存储与处理

由于 IoT 数据量大、种类多且实时性强，对数据存储和处理系统的要求较高。

存储方式

云存储：
- 使用云平台（如 AWS、Azure、阿里云）存储数据，具有弹性扩展性。
- 例如：将 IoT 数据存储在 AWS IoT Core。
边缘计算：
- 在设备附近（边缘）处理和存储部分数据，降低传输延迟。
- 例如：工业设备实时分析振动数据，异常时才上传到云。
数据湖与数据仓库：
- 数据湖（如 Hadoop、AWS S3）：存储原始数据。
- 数据仓库（如 Snowflake、Redshift）：存储结构化数据用于分析。

处理方式

实时数据处理：
- 使用流处理框架（如 Apache Kafka、Flink）分析实时数据。
- 例如：监控车辆速度，超速时发出警报。
批量数据分析：
- 将 IoT 数据定期导入数据仓库，使用大数据工具（如 Spark）进行批处理。
- 例如：分析一周内设备的运行状态。
机器学习与AI：
- 使用 AI 模型对 IoT 数据进行预测和异常检测。
- 例如：预测工业设备的故障。

Mapping

Mapping 在开发中通常指的是数据或信息之间的映射关系，即将一种数据结构、字段或实体转换成另一种对应的数据结构或字段，以便在不同系统或模块之间进行数据的传递或处理。Mapping 是软件开发中常见的概念，广泛应用于数据传输、转换、模型映射等场景。

Mapping的常见场景

Mapping 的作用

数据转换：
- 将数据从一种格式或结构转换为另一种，以满足不同模块或系统的需求。
系统集成：
- 在多个系统之间共享数据时，通过映射来解决字段或数据结构不一致的问题。
降低耦合性：
- 使用映射层可以隔离不同系统或模块的实现细节，降低代码的耦合性。
提升代码可维护性：
- 通过统一的映射规则或工具，简化数据转换的逻辑，方便后续维护。

常见的 Mapping 技术与工具

编程语言中的工具：
- Java：ModelMapper、MapStruct。
- Python：pydantic、Marshmallow。
- JavaScript：手动映射（如使用 map() 方法）。
数据库工具：
- Hibernate、JPA（ORM 工具）。
- 数据库视图用于映射复杂字段。
ETL 工具：
- Apache Nifi、Talend、Informatica，用于跨系统的大规模数据映射和转换。
配置文件与规则：
- JSON、YAML 配置文件中定义的映射规则。
- 自定义映射规则文件。

第一部分

第一章

数字化转型目标

数字化转型蓝图

数据工作框架

数据体系建设的整体框架

第二章

数据治理体系框架

数据管理总纲

第三章

数据分类管理框架

数据分类

基础数据治理

基础数据治理的价值

基础数据治理的收益

基础数据治理的框架

主数据治理

主数据管理策略

主数据管理框架

客户主数据

客户数据是企业最重要的主数据之一，几乎贯穿所有业务经营活动。客户数据在全流程中的及时性、准确性、完整性、一致性、有效性、唯一性是业务高效运作、经营可控的重要保障。随着业务发展，华为客户数量迅速增长，客户数据种类复杂多样，因此要构建客户数据管理和服务化能力，以满足经营分析、交易打通、内外部遵从、客户价值挖掘等核心要求，支撑面向多BG的战略转变。