云计算之大数据（下）

一、Hologres

1.1 产品定义

1.2 产品架构

1.3 Hologres基本概念

1.4 最佳实践 - Hologres分区表

1.5 最佳实践 - 分区字段设置

1.6 最佳实践 - 设置字段类型

1.7 最佳实践 - 存储属性设置

1.8 最佳实践 - 分布键设置

1.9 最佳实践 - 聚簇键设置

1.10 最佳实践 - 分段键设置

1.11 最佳实践 - 数据生命周期管理

1.12 最佳实践总结

二、Flink

2.1 产品定义

2.2 Flink架构

2.3 技术架构

2.4 功能架构

2.5 Flink任务自动调优

2.6 最佳实践 - Flink+Hologress实时数仓

2.7 最佳实践 - Flink任务反压

2.8 最佳实践 - Flink任务数据正确性问题处理

2.8.1 场景一：去重

2.8.2 场景二：filter

2.8.3 场景三：结果表主键Update结果不符合预期

2.8.4 场景四：维表JOIN

总结

一、Hologres

阿里云Hologres是一款实时数仓产品，它融合了OLAP和OLTP的能力，能够支持用户进行实时的分析处理。

名词	定义
实例	在Hologres中，实例（Instance）是您使用和管理数据库存储服务的实体，一个实例可以看作是多个数据库的合集，您对数据库的操作都是在该实例下完成。
数据库	一个模式的合集，用户所有的操作，包括表、函数等都是在数据库里完成。系统会在用户完成实例申请后默认创建一个“postgres”的数据库，该DB仅用于运维管理，实际业务需要新建DB
SCHEMA	schema为数据库对象的集合，类似一个文件系统中的目录，实例内的对象如表、函数等都存放于各个schema下，创建数据库成功后，会默认创建一个名叫public的schema
表	表是数据存储单元，分为内部表和外部表
内部表	指数据存储在Hologres中的表，表中的数据类型可以是Hologres支持的任意一种类型。
外部表	指在Hologres不存储数据只做字段映射的表，外部数据表都是只读的，因此在外部表不能够执行DML操作，也不能创建索引
分区表	被分割的表称为分区表，表通过明确列出每个分区中出现的键值进行分区，可以理解为分类，通过分类把不同类型的数据放在不同目录。

父表按分区键（Partition Key）的值划分为不同的子表，子表对外可见。
分区表在使用时，需要提前创建子表。
分区表的不同分区子表采用不同的文件存储，查询时带上分区条件，指定所需查询的分区，避免全表扫描，快速定位存储文件，提高处理效率。通常将事实表按照日期划分为不同的分区表。

使用建议：

使用说明：

在Hologres中表默认为列存（column store）形式。列存对于OLAP场景较为友好，适合各种复杂查询、数据关联、扫描、过滤、统计。
行存对于key-value场景比较友好，适合基于primary key的点查和扫描scan。
列存会默认创建更多的索引，包括对字符串类型创建bitmap索引，这些索引可以显著加速查询过滤和统计，因此列比较多的表，会占用更多的存储空间，您可以通过关闭这些默认创建的索引，释放空间。
行存默认仅对主键创建索引，仅支持主键的快速查询，因此使用的存储空间更少，但使用场景也受到限制。
从HologresV1.1版本开始支持行列共存的格式。行列共存是同时具备了上述的能力，即支持高效点查也支持OLAP分析，