数据湖 Data Lake-概述

Data Lake

在这里插入图片描述

1. 数据湖的定义

数据湖是一种存储系统，用于集中存储大量的原始数据，可以按数据本来的原始格式进行存储，用户可以在需要时提取和分析这些数据。

在这里插入图片描述
A data lake is a centralized repository designed to hold vast volumes of data in its native, raw format — be it structured, semi-structured, or unstructured.

Data Lake不仅支持结构化数据（如关系数据库中的数据），还支持半结构化（如JSON、XML）和非结构化数据（如文本、图片、视频等）。
在这里插入图片描述

2. 数据湖的架构

（1）Data sources 数据源

在这里插入图片描述
In a data lake architecture, the data journey starts at the source.

结构化数据：如关系数据库中的数据，通常以表格形式存储，便于处理和查询。常见的来源包括ERP系统、CRM系统等。
半结构化数据：如JSON、XML等格式的数据，虽然没有严格的模式，但仍然包含一定的结构，便于解析。这类数据源通常来自于Web服务、社交媒体等。
非结构化数据：如文本、图片、音频和视频文件等，这些数据没有固定格式，需要特定的技术进行处理和分析。来源包括文档管理系统、传感器数据等。

（2）Data ingestion 数据摄取

在这里插入图片描述
Data ingestion is the process of importing data into the data lake from various sources.数据摄取是将数据导入数据湖的过程。

批处理：定期将数据从源系统批量导入数据湖，适用于数据变化频率较低的情况。这种方式可以在低峰时段进行，提高效率。
实时摄取：通过流处理技术（如Apache Kafka）实时收集数据，适用于需要即时分析的场景，如金融交易监控或社交媒体实时分析。
数据预处理：在摄取过程中，可能会应用一些轻量级的转换，但数据通常保持原始格式。

（3） Data storage and processing 数据存储和处理

在这里插入图片描述

原始数据存储区 Raw data store section：

数据以原始格式存放，未经过任何清理或转化。
使用存储解决方案如Hadoop HDFS、Amazon S3或Azure Blob Storage。

转化区 Transformation section：

数据经过多种处理，提升其质量。
- 数据清理：去除或修正不准确的记录。
- 数据增强：增加额外信息以提升价值。
- 规范化：统一数据格式，确保一致性。
- 结构化：将非结构化数据转化为结构化格式。

处理数据区 Processed data section：

可信数据可移动到精细或一致数据区。
进一步转化以适应特定业务需求，供分析师和数据科学家使用，便于分析和机器学习。

（4）分析沙箱 Analytical sandboxes

在这里插入图片描述
分析沙箱是隔离的环境，确保实验活动不会干扰主数据存储。

用于数据探索和分析，提供一个不影响主数据流的实验环境，促进假设测试和模型开发，推动数据驱动的创新和敏捷分析文化。

数据摄取：
- 原始数据：保留数据的原始上下文，便于进行初步的探索性分析。
- 处理数据：经过清洗和转换的数据，适合用于更复杂的分析和机器学习模型。
数据发现：
- 分析师和数据科学家在此阶段探索数据的结构、质量和潜在价值，通常通过描述性统计和数据可视化工具进行。
机器学习与预测建模：
- 在对数据有充分理解后，应用机器学习算法创建预测或分类模型，使用如TensorFlow、PyTorch或Scikit-learn等库。
探索性数据分析（EDA）：
- 通过统计图形和信息表分析变量之间的关系、模式或异常，无需事先假设。

（5）数据消费 Data Consumption

数据消费层是将所有前期努力的成果展示给最终用户的地方。
在这里插入图片描述

数据展示：
- 打磨过的、可靠的数据通过商业智能工具（如Tableau或Power BI）对外展现，便于用户分析和决策。
角色参与：
- 数据分析师、商业分析师和决策者在此阶段利用处理过的数据驱动业务决策，提供关键洞察。

（6）交叉治理、安全和监控层（Crosscutting Governance, Security, and Monitoring Layer）

在这里插入图片描述
这一层贯穿整个数据流，是确保数据湖有效性和安全性的基础.

治理：
- 确立并执行数据访问、质量和可用性的规则和政策，确保信息一致性和责任使用。工具如Apache Atlas和Collibra可用于实现数据治理。
安全性：
- 实施安全协议防止未经授权的数据访问，确保遵守数据保护法规。可以集成如Varonis或McAfee等解决方案。
监控和ELT流程：
- 负责监督数据从原始形式到可用格式的流转，使用Talend或Apache NiFi等工具来优化流程并维持性能标准。
数据管理与监护：
- 由专门团队或指定的数据所有者进行，使用Alation或Waterline Data等平台追踪数据的增改删，管理元数据。

5. 数据湖与数据仓库的比较

在这里插入图片描述

数据处理：
- 数据湖：支持多种数据类型（结构化、半结构化、非结构化），存储原始数据。
- 数据仓库：主要处理结构化数据，经过严格的清洗和处理。

在这里插入图片描述

存储：
- 数据湖：设计为低成本存储，适合处理海量数据。
- 数据仓库：存储成本相对较高，适合经过处理的数据。
灵活性（敏捷性）：
- 数据湖：高度灵活，可随时配置和重新配置。
- 数据仓库：较为固定，调整配置较为复杂。

在这里插入图片描述

安全性：
- 数据湖：安全机制仍在完善中，治理相对较新。
- 数据仓库：安全性和治理措施较为成熟且规范。
用户：
- 数据湖：主要面向数据科学家和分析师，支持探索性分析。
- 数据仓库：主要服务于业务专业人士，提供稳定的报表和分析。
模式：
- 数据湖：采用“读取时模式”（schema-on-read），在数据读取时定义结构。
- 数据仓库：采用“写入时模式”（schema-on-write），在数据写入时定义结构。