Hive整合HBase，操作HBase表

Hive整合HBase，操作HBase表

news/2024/11/2 3:44:35/

Hive over HBase原理

Hive与HBase利用两者本身对外的API来实现整合，主要是靠HBaseStorageHandler进行通信，利用 HBaseStorageHandler，Hive可以获取到Hive表对应的HBase表名，列簇以及列，InputFormat和 OutputFormat类，创建和删除HBase表等。
Hive访问HBase中表数据，实质上是通过MapReduce读取HBase表数据，其实现是在MR中，使用HiveHBaseTableInputFormat完成对HBase表的切分，获取RecordReader对象来读取数据。
对HBase表的切分原则是一个Region切分成一个Split,即表中有多少个Regions,MR中就有多少个Map；
读取HBase表数据都是通过构建Scanner，对表进行全表扫描，如果有过滤条件，则转化为Filter。当过滤条件为rowkey时，则转化为对rowkey的过滤；
Scanner通过RPC调用RegionServer的next()来获取数据；

查询性能比较：

query1:
select count(1) from on_hdfs;
select count(1) from on_hbase;
query2(根据key过滤)
select * from on_hdfs
where key = ‘13400000064_1388056783_460095106148962′;
select * from on_hbase
where key = ‘13400000064_1388056783_460095106148962′;
query3(根据value过滤)
select * from on_hdfs where value = ‘XXX';
select * from on_hbase where value = ‘XXX';

on_hdfs (20万记录，150M，TextFile on HDFS)
on_hbase(20万记录，160M，HFile on HDFS)

Hive over HBase

on_hdfs (2500万记录，2.7G，TextFile on HDFS)
on_hbase(2500万记录，3G，HFile on HDFS)

Hive over HBase

全表扫描，hive_on_hbase查询时候如果不设置caching，性能远远不及hive_on_hdfs；
根据rowkey过滤，hive_on_hbase性能上略好于hive_on_hdfs，特别是数据量大的时候；
设置了caching之后，尽管比不设caching好很多，但还是略逊于hive_on_hdfs；

性能瓶颈分析

1. Map Task

Hive读取HBase表，通过MR,最终使用HiveHBaseTableInputFormat来读取数据，在getSplit()方法中对 HBase表进行切分，切分原则是根据该表对应的HRegion，将每一个Region作为一个InputSplit，即，该表有多少个Region,就有多少个Map Task；
每个Region的大小由参数hbase.hregion.max.filesize控制，默认10G，这样会使得每个map task处理的数据文件太大，map task性能自然很差；
为HBase表预分配Region，使得每个Region的大小在合理的范围；
下图是给该表预分配了15个Region，并且控制key均匀分布在每个Region上之后，查询的耗时对比，其本质上是Map数增加。

Hive over HBase

2. Scan RPC 调用：

在Scan中的每一次next()方法都会为每一行数据生成一个单独的RPC请求， query1和query3中，全表有2500万行记录，因此要2500万次RPC请求；

扫描器缓存（Scanner Caching）：HBase为扫描器提供了缓存的功能，可以通过参数hbase.client.scanner.caching来设置；默认是1；缓存的原理是通过设置一个缓存的行数，当客户端通过RPC请求RegionServer获取数据时，RegionServer先将数据缓存到内存，当缓存的数据行数达到参数设置的数量时，再一起返回给客户端。这样，通过设置扫描器缓存，就可以大幅度减少客户端RPC调用RegionServer的次数；但并不是缓存设置的越大越好，如果设置的太大，每一次RPC调用将会占用更长的时间，因为要获取更多的数据并传输到客户端，如果返回给客户端的数据超出了其堆的大小，程序就会终止并跑出OOM异常；

所以，需要为少量的RPC请求次数和客户端以及服务端的内存消耗找到平衡点。

rpc.metrics.next_num_ops
未设置caching,每个RegionServer上通过next()方法调用RPC的次数峰值达到1000万：

Hive over HBase

设置了caching=2000，每个RegionServer上通过next()方法调用RPC的次数峰值只有4000：

Hive over HBase

设置了caching之后，几个RegionServer上的内存消耗明显增加：

Hive over HBase

扫描器批量（Scanner Batch）：缓存是面向行一级的操作，而批量则是面向列一级的操作。批量可以控制每一次next()操作要取回多少列。比如，在扫描器中设置setBatch(5),则一次next()返回的Result实例会包括5列。
RPC请求次数的计算公式如下：
RPC请求次数 = （表行数 * 每行的列数）/ Min(每行的列数，批量大小) / 扫描器缓存

因此，在使用Hive over HBase，对HBase中的表做统计分析时候，需要特别注意以下几个方面：

1. 对HBase表进行预分配Region，根据表的数据量估算出一个合理的Region数；

2. rowkey设计上需要注意，尽量使rowkey均匀分布在预分配的N个Region上；

3. 通过set hbase.client.scanner.caching设置合理的扫描器缓存；

4. 关闭mapreduce的推测执行：

set mapred.map.tasks.speculative.execution = false;
set mapred.reduce.tasks.speculative.execution = false;

参考链接：Hive over HBase和Hive over HDFS性能比较分析

http://www.ppmy.cn/news/20158.html

相关文章

LeetCode刷题记录---贪心算法

LeetCode刷题记录---贪心算法

😄 跟着Carl哥（公众号：代码随想录）学学贪心算法咯~ 。贪心的本质是选择每一阶段的局部最优，从而达到全局最优。举一个例子：例如，有一堆钞票，你可以拿走十张，如果想达到最大的金额，你要怎么拿？指定每次拿最大的，最终结果就是拿走最大数额的钱。每次拿最大的就是局…

阅读更多...

lego-loam学习笔记(二)

lego-loam学习笔记(二)

前言： 对于lego-loam中地面点提取部分的源码进行学习。地面点提取在src/imageProjection.cpp中的函数groundRemoval()。内容比较少，容易理解。 size_t lowerInd, upperInd;float diffX, diffY, diffZ, angle; lowerInd表示低线数的点云； …

阅读更多...

python本科毕业设计基于神经网络的虚假评论识别系统源码，含模型及数据

python本科毕业设计基于神经网络的虚假评论识别系统源码，含模型及数据

主要函数： 1.corpusprocess原始语料处理函数 2.train_word2vec生成word2vec向量 3.generate_id2wec获得索引的w2id,和嵌入权重embedding_weights 4.prepare_data 数据预处理完整代码下载地址：python本科毕业设计基于神经网络的虚假评论识别系统源码代…

阅读更多...

MyBatis-Plus知识快速入门

MyBatis-Plus知识快速入门

文章目录1.MyBatis-Plus简介2.入门案例2.1开发环境2.2创建测试数据库和表2.3创建SpringBoot工程2.4创建实体类以及lombok的使用2.5添加mapper2.6加入日志功能3.基本的CRUD3.1BaseMapper3.2插入3.3删除3.4修改3.5查询4.通用Service4.1创建Service接口和实现类5.常用注解5.1Table…

阅读更多...

Android OpenCV（二）主体识别位置检测

Android OpenCV（二）主体识别位置检测

前言工作中遇到需要通过OpenCV找到图片主体体积占图片百分比的比例，这里做一个问题解决思路的记录。该方面新手小白，有不对的地方可以评论指出哈。重要API Sobel算法 Sobel 计算参考文章索贝尔算子是计算机视觉领域的一种重要处理方法。主要用于…

阅读更多...

基于Java+SpringBoot+Vue前后端分离小区管理系统设计与实现

基于Java+SpringBoot+Vue前后端分离小区管理系统设计与实现

博主介绍：✌全网粉丝3W，全栈开发工程师，从事多年软件开发，在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战✌ 博主作品：《微服务实战》专栏是本人的实战经验总结，《Spring家族及…

阅读更多...

【华为上机真题】密码要求

【华为上机真题】密码要求

🎈 作者：Linux猿 🎈 简介：CSDN博客专家🏆，华为云享专家🏆，Linux、C/C、云计算、物联网、面试、刷题、算法尽管咨询我，关注我，有问题私聊！ &…

阅读更多...

PHP反序列化新手入门学习总结

PHP反序列化新手入门学习总结

最近写了点反序列化的题，才疏学浅，希望对CTF新手有所帮助，有啥错误还请大师傅们批评指正。 php反序列化简单理解首先我们需要理解什么是序列化，什么是反序列化？ PHP序列化：serialize() 序列化是将变量…

阅读更多...

最新文章