Hive企业级调优[8]—

其他优化

CBO优化

优化说明

优化案例

谓词下推

优化说明

优化案例

矢量化查询

Fetch抓取

本地模式

优化说明

优化案例

并行执行

严格模式

其他优化

CBO优化

优化说明

CBO（Cost Based Optimizer），即基于成本的优化。在Hive中，成本模型考虑到了数据的行数、CPU、本地IO、HDFS IO、网络IO等因素。Hive会计算同一SQL语句的不同执行计划的成本，并选择成本最低的执行计划。目前，CBO在Hive的MR引擎下主要用于join的优化，如多表join的join顺序。

相关参数：

-- 是否启用CBO优化
set hive.cbo.enable=true;

优化案例

1）示例SQL语句

hive (default)> select>     *> from order_detail od> join product_info product on od.product_id=product.id> join province_info province on od.province_id=province.id;

2）关闭CBO优化

-- 关闭CBO优化
set hive.cbo.enable=false;-- 为了测试效果更加直观，关闭Map Join自动转换
set hive.auto.convert.join=false;

3）开启CBO优化

-- 开启CBO优化
set hive.cbo.enable=true;-- 为了测试效果更加直观，关闭Map Join自动转换
set hive.auto.convert.join=false;

4）总结

根据上述案例可以看出，CBO优化对于执行计划中join顺序有显著影响。它将province_info的join顺序提前，因为province_info的数据量较小，这样做可以使中间结果的数据量减小，从而降低整体计算任务的数据量，即减小计算成本。

谓词下推

优化说明

谓词下推（Predicate Pushdown）是指尽量将过滤操作前移，以减少后续计算步骤的数据量。

相关参数：

-- 是否启动谓词下推优化
set hive.optimize.ppd = true;

需要注意的是，CBO优化也会完成一部分的谓词下推优化工作，因为在执行计划中，谓词越靠前，整个计划的计算成本就越低。

优化案例

1）示例SQL语句

hive (default)> select>     *> from order_detail> join province_info> where order_detail.province_id='2';

2）关闭谓词下推优化

-- 是否启动谓词下推优化
set hive.optimize.ppd = false;-- 为了测试效果更加直观，关闭CBO优化
set hive.cbo.enable=false;

3）开启谓词下推优化

-- 是否启动谓词下推优化
set hive.optimize.ppd = true;-- 为了测试效果更加直观，关闭CBO优化
set hive.cbo.enable=false;

矢量化查询

Hive的矢量化查询优化依赖于CPU的矢量化计算能力，可以极大地提高某些典型查询场景（如scans, filters, aggregates, and joins）下的CPU使用效率。

相关参数：

set hive.vectorized.execution.enabled=true;

若执行计划中出现“Execution mode: vectorized”字样，则表明使用了矢量化计算。

官网参考链接： Vectorized Query Execution - Apache Hive - Apache Software Foundation

Fetch抓取

Fetch抓取是指，在某些情况下，Hive可以不必使用MapReduce计算。例如：select * from emp; 在这种情况下，Hive可以简单地读取emp对应的存储目录下的文件，然后输出查询结果到控制台。

相关参数：

-- 是否在特定场景转换为Fetch任务
-- 设置为none表示不转换
-- 设置为minimal表示支持select *，分区字段过滤，Limit等
-- 设置为more表示支持select 任意字段, 包括函数，过滤，和limit等
set hive.fetch.task.conversion=more;

本地模式

优化说明

大多数的Hadoop Job需要Hadoop提供的完整可扩展性来处理大数据集。然而，有时Hive的输入数据量很小。在这种情况下，为查询触发执行任务消耗的时间可能比实际Job的执行时间更长。对于这种情况，Hive可以通过本地模式在单台机器上处理所有任务，从而缩短执行时间。

相关参数：

-- 开启自动转换为本地模式
set hive.exec.mode.local.auto=true;-- 设置Local MapReduce的最大输入数据量，当输入数据量小于这个值时采用Local MapReduce的方式，默认为134217728（即128MB）
set hive.exec.mode.local.auto.inputbytes.max=50000000;-- 设置Local MapReduce的最大输入文件个数，当输入文件个数小于这个值时采用Local MapReduce的方式，默认为4
set hive.exec.mode.local.auto.input.files.max=10;

优化案例

1）示例SQL语句

hive (default)> select>     count(*)> from product_info> group by category_id;

2）关闭本地模式

set hive.exec.mode.local.auto=false;

3）开启本地模式

set hive.exec.mode.local.auto=true;

并行执行

Hive会将一个SQL语句转化为一个或多个Stage，每个Stage对应一个MR Job。默认情况下，Hive同时只会执行一个Stage。但是，某些SQL语句可能包含多个Stage，而这些Stage之间并非完全依赖，因此可以并行执行。

相关参数：

-- 启用并行执行优化
set hive.exec.parallel=true;-- 同一个SQL允许的最大并行度，默认为8
set hive.exec.parallel.thread.number=8;

严格模式

Hive可以通过设置某些参数来防止危险的操作：

分区表不使用分区过滤

将hive.strict.checks.no.partition.filter设置为true时，对于分区表，除非WHERE语句中含有分区字段过滤条件来限制范围，否则不允许执行。这样可以防止扫描所有分区，因为分区表通常数据量很大且增长迅速。
使用ORDER BY没有LIMIT过滤

将hive.strict.checks.orderby.no.limit设置为true时，对于使用了ORDER BY语句的查询，要求必须使用LIMIT语句。这是因为ORDER BY为了执行排序过程会将所有结果数据发送到同一个Reduce中处理，使用LIMIT可以在数据进入Reduce之前减少部分数据。
笛卡尔积

将hive.strict.checks.cartesian.product设置为true时，会限制笛卡尔积的查询。对于关系型数据库熟悉的用户可能期望在执行JOIN查询时不使用ON语句而是使用WHERE语句，这样关系数据库的执行优化器可以高效地将WHERE语句转化为ON语句。然而，Hive不会执行这种优化，如果表足够大，查询可能会变得不可控。