一、请描述一下数据倾斜,并提供解决方案?
定义:由于数据分布不均匀,导致大量数据集中到一点,造成数据热点。现象是100个 task, 有一个运行了 1个小时,其他99个只有 10分钟。本质是数据量太大。
原因:key 分布不均匀、sql倾斜join、建表时类型有问题
算子:count、disticnt、group by 、join
解决:打散key、拆分聚合、列裁剪(最好从开发角度和业务角度回答)
定义:由于数据分布不均匀,导致大量数据集中到一点,造成数据热点。现象是100个 task, 有一个运行了 1个小时,其他99个只有 10分钟。本质是数据量太大。
原因:key 分布不均匀、sql倾斜join、建表时类型有问题
算子:count、disticnt、group by 、join
解决:打散key、拆分聚合、列裁剪(最好从开发角度和业务角度回答)