浅谈StarRocks SQL性能检查与调优

StarRocks性能受数据建模、查询设计及资源配置核心影响。分桶键选择直接决定数据分布与Shuffle效率，物化视图可预计算复杂逻辑。执行计划需关注分区裁剪、谓词下推及Join策略，避免全表扫描或数据倾斜。资源层面，需平衡并行度、内存限制与网络开销，防止资源争抢或溢出。优化方向包括避免SELECT *、改写分页逻辑、调整分桶策略及定期维护（如合并小文件）。结合执行计划分析与监控工具，可精准定位瓶颈，通过向量化引擎、Bitmap索引及CBO优化器进一步提升效率。持续监控资源使用与数据分布，确保集群处于最佳状态。

StarRocks 作为一款高性能的分布式分析型数据库，其 SQL 性能调优需要结合其存储模型、分布式架构和查询优化器特性。以下是性能检查与调优的核心思路及实践方法：

一、性能检查工具

1. 执行计划分析

EXPLAIN 命令：解析查询逻辑执行计划，定位瓶颈阶段（如扫描、Shuffle、聚合）。
```
sql">EXPLAIN SELECT ...;  -- 查看逻辑执行计划
EXPLAIN ANALYZE SELECT ...;  -- 实际执行并返回物理资源消耗（3.0+）
```
- 关注点：
  - SCAN 阶段：是否命中分区/分桶裁剪？数据扫描量是否过大？
  - JOIN 阶段：是否触发 Colocate/Bucket Shuffle Join？是否存在数据倾斜？
  - AGGREGATE 阶段：是否过度聚合？是否启用两阶段优化？

2. Profile 分析

查询 Profile：通过 SET enable_profile=true; 开启，执行查询后获取详细资源消耗。
```
sql">SHOW PROFILE ALL;  -- 查看所有节点的 CPU、内存、网络消耗
```
- 关键指标：
  - OperatorTotalTime：各算子耗时。
  - PeakMemoryUsage：内存峰值（避免 OOM）。
  - NetworkBytes：Shuffle 数据量。

3. 系统表监控

information_schema：查询慢 SQL、资源使用历史。

sql">-- 查看最近 10 条慢查询
SELECT * FROM information_schema.query_statistics 
ORDER BY total_cost DESC LIMIT 10;

二、常见性能问题及优化手段

1. 数据扫描效率低

优化手段：
- 分区裁剪：确保 WHERE 条件包含分区键（如 dt='2023-10-01'）。
- 分桶优化：分桶键选择高基数字段，且查询中常作为 JOIN/WHERE 条件。
- 索引加速：
  - Bitmap 索引：低基数列的等值查询（如 gender、city）。
  - Bloom Filter 索引：高基数列的等值/IN 查询（如 user_id）。

2. JOIN 性能差

优化策略：
- Colocate Join：保证 JOIN 表的分桶方式和分桶数一致，避免数据 Shuffle。
```
sql">-- 建表时指定相同的分桶数和副本分布
PROPERTIES ("colocate_with" = "group1");
```
- Bucket Shuffle Join：左表分桶键与 JOIN 键一致时自动触发，减少右表 Shuffle。
- Runtime Filter：利用 set runtime_filter_mode=global 动态过滤数据。

3. 聚合查询慢

优化方向：
- 预聚合：使用 Aggregate Key 表模型或物化视图（Rollup）。
- 两阶段聚合：通过 set new_planner_agg_stage=2 启用（减少数据传输）。
- 避免大基数 DISTINCT：用 BITMAP_UNION 替代 COUNT(DISTINCT)。

4. 资源瓶颈

内存优化：
- 设置 exec_mem_limit 限制单查询内存，避免 OOM。
- 对大表扫描启用 spill_to_disk（3.0+），落盘缓解内存压力。
并发控制：
- 调整 parallel_fragment_exec_instance_num 控制并发度。
- 使用资源组（Resource Group）隔离关键业务查询。

三、调优最佳实践

1. 表设计规范

数据分布：
- 分区键：按时间（如天/小时）分区，控制单分区数据量在 10GB 内。
- 分桶键：选择 JOIN/WHERE 高频字段，分桶数=节点数×（2~5）。
存储模型：
- 明细场景：Duplicate Key 模型（默认）。
- 更新频繁场景：Primary Key 模型（3.0+）。

2. 查询优化技巧

谓词下推：确保过滤条件尽早执行（如将过滤条件写在子查询中）。
**避免 SELECT ***：明确指定列，减少数据传输。
利用物化视图：预计算高频聚合指标（如每日 UV、GMV）。

3. 系统级调优

Compaction 优化：调整 cumulative_compaction_num_threads 加速小文件合并。
统计信息收集：定期执行 ANALYZE TABLE 更新 CBO 优化器统计信息。
冷热分离：将历史数据转存至对象存储（如 S3），降低存储成本。

四、性能调优案例

场景：大表 JOIN 数据倾斜

现象：JOIN 时个别节点耗时远高于其他节点。
诊断：
- EXPLAIN 显示 Shuffle Join，且某 Bucket 数据量显著偏大。
- Profile 中 NetworkBytes 不均衡。
优化：
1. 调整分桶键，选择更均匀的字段组合。
2. 启用 Colocate Join 或 Bucket Shuffle Join。
3. 对倾斜 Key 增加随机前缀打散数据。