HBase 在统一内容平台业务的优化实践

news/2024/9/14 2:06:25/ 标签: HBase, 连接池预热, compact优化

作者:来自 vivo 互联网服务器团队-Leng Jianyu、Huang Haitao

HBase是一款开源高可靠性、扩展性、高性能和灵活性的分布式非关系型数据库,本文围绕数据库选型以及使用HBase的痛点展开,从四个方面对HBase的使用进行优化,取得了一些不错效果。

一、业务简介

统一内容平台主要承担vivo内容生态的内容审核、内容理解、内容智作和内容分发等核心功能,通过聚合全网内容,建设行业级的业务中台和内容生态,为上下游提供优质可靠的一站式服务,目前服务的业务方包括视频业务、泛信息流业务等。

图片

作为一个内容中台,每天要新增存储大量图文和视频内容来满足分发的需要。与此同时,对这些内容加工处理的数据也都需要存储,包括基础信息,分类标签信息,审核信息等等。而且不仅仅是需要存储的数据量级很大,对数据的读取和写入操作也非常频繁,当前对数据库的读写主要集中在两个方面:

  • 核心链路的内容处理包含了大量对内容特征信息的读取和写入操作;

  • 对外提供的查询服务会产生很多回源查询数据库的操作。

在经过多年累积后,当前存储的数据量越变越大,并且可以预见数据量级会不断膨胀下去,如何选择一种可靠的存储选型,来保证服务稳定性和扩展性成了当前项目架构的重中之重。

二、存在的问题

在选用HBase之前,内容平台核心数据的存储以Mongodb为主要存储选型,但是在日常的使用中,发现存储侧存在如下一些痛点问题

  • 核心数据量大,大表有20TB 以上,总存储 60TB 以上,Mongodb 的存储架构,无法满足良好扩展性要求;

  • 访问查询流量大,需要承载智慧push、泛信息流、视频推荐侧的大回源查询流量,保持查询接口高性能;

  • 为了维护Mongodb的稳定性,需要定期切换 Mongodb 数据库主从节点,重做实例,需要运维长期投入,维护成本高。

所以我们迫切需要寻找一个更适合当前场景的数据库来满足业务请求量和存储大小日益增长的需求,并且要求具备高性能、高稳定、可扩展、低维护成本的特性。

三、存储选型

经过一些调研后发现HBase的一些特性能很好地满足当前场景的要求。

(1)高性能

HBase采用的是Key/Value的列式存储方式(对比Mongodb是行式数据库),同一个列族的数据存放在一个文件中,随着文件的增长会进行分裂,分散到其他机器上,所以即使随着数据量增大,也不会导致读写性能的下降。HBase具备毫秒级的读写性能,如果写入数据量大,还可以使用bulkload导入数据的方式进行高效入库。

(2)高扩展性、高容错性

HBase的存储是基于Hadoop的,Hadoop实现了一个分布式文件系统(HDFS),HDFS的副本机制使得其具有高容错性的特点,并且HDFS的Federation机制使得其具有高扩展性。基于Hadoop意味着HBase与生俱来的超强扩展性和高容错性。

(3)强一致性

HBase的数据是强一致性的,从CAP理论来看,HBase是属于CP的。CAP 定理表明,在存在网络分区的情况下,一致性和可用性必须二选一。HBase在写入数据时,先把操作的记录写入到预写日志中(Write-ahead log,WAL),然后再被加载到Memstore的。就算某个节点机器宕掉了,由于WAL的数据是存储在HDFS上的,所以数据并不会丢失,后续可以通过读取预写日志恢复内容。

(4)列值支持多版本

HBase的多版本特性可以针对某个列族控制列值的版本数,默认是1,即每个key保存一个版本,同一个rowkey的情况下,后面的列值会覆盖前面的列值。可以动态修改列族的版本数,每个版本使用时间戳进行标记,默认是写入时间作为该版本的时间戳,也可以在写入时指定时间戳。

综合以上特性,HBase是非常适合当前项目对数据库选型的要求。

四、HBase 优化实践

随着HBase在整个项目中逐步扩大使用,也发现了一些使用规范问题以及一些查询的性能问题。比如查询毛刺比较多、夜间Compact期间耗时比较高、流量高峰期的时候少量请求会有延迟。针对这些问题,我们从下面四个方面,对HBase的使用进行了优化。

4.1 集群升级

刚开始使用HBase的时候,我们使用的HBase集群版本是1.2版本的,此版本存在诸多弊端,如:RIT(Region-In-Transition)问题频发、请求延时突刺、建删表速度慢、meta 表稳定性差、节点故障恢复速度慢等问题。我们在使用过程发现的主要问题是响应时间突刺问题,该问题会导致我们实时查询接口在回源时超时较多,导致接口的响应时间有突刺被下游业务方熔断,影响业务查询。与HBase团队讨论与评估后,决定将业务使用的集群升级到HBase 2.4.8 版本。该版本在公司较多的业务场景中已经得到验证,可以解决大部分1.2.0版本存在的痛点问题,可以大幅提升读写性能,有效降低读毛刺,单机处理性能的提升可减少20%左右机器成本。

下面是集群升级后的读写平均耗时对比图。可以看到在升级之前,平均响应时间经常会有一些突刺,最高能达到超过10s,升级后几乎不存在这么高的平均响应时间突刺,能保持在10ms以下,偶尔较高也是几十毫秒级别。

图片

升级前

图片

升级后

4.2 连接池使用和连接预热

HBase Connection 创建对象并不是简单对应一个socket连接,需要与Zookeeper以及HMaster、RegionServer都建立连接,所以该过程是一个非常耗资源的过程,一般只创建一个 Connection 实例,其它地方共享该实例。在Connection初始化之后,用connection下的getTable方法实现对表格的连接。为了减少与表格连接带来的网络开销,我们建立了对不同表格的连接池来管理客户端和服务端的连接。大致流程图如下图所示。

通过建立连接池,带来了以下三点优势:

(1)对表和表之间进行了连接资源隔离,避免互相影响;

(2)对连接实现了复用,减少了创建连接的网络开销;

(3)防止突增的流量带来的影响,实现平滑处理流量。

此外,图中可以看到,在程序启动阶段,可以实现对HBase表连接的预热,提前建立对表格的连接,可以有效避免在程序启动阶段由于大量建立连接导致读写的响应时间变长,影响整体性能。

连接池通过使用Apache Commons Pool提供的GenericObjectPool通用对象池来实现,GenericObjectPool包含丰富的配置选项,能够定期回收空闲对象,并且支持对象验证,具有强大的线程安全性和可扩展性。然后将不同表格的连接池对象放到本地缓存LoadingCache中,LoadingCache底层通过LRU算法实现对最久远且没有使用的数据的淘汰,保证没有使用的表格连接能及时释放。通过使用第三方的对象池和本地缓存,建立了对HBase表格的连接池,并且实现了预加载,减少了一些读写HBase的开销,降低了读写耗时,对于刚启动服务时的读写突刺带来了一些改善。

图片

4.3 按列读取

HBase建表的时候是不需要确定列的,因为列是可变的,它非常灵活,唯一需要确定的就是列族。一张表的很多属性比如过期时间、数据块缓存以及是否压缩等都是定义在列族上,而不是定义在表上或者列上,这一点做法跟以往的数据库有很大的区别。同一个表里的不同列族可以有完全不同的属性配置,但是同一个列族内的所有列都会有相同的属性。一个没有列族的表是没有意义的,因为列必须依赖列族而存在,所以在HBase中一个列的名称前面总是带着它所属的列族。列族存在使得HBase会把相同列族的列尽量放在同一台机器上,不同列族的列分布在不同的机器上。

一般情况下,从客户端发起请求读取数据,到数据返回大致有如下几步:

  1. 客户端从ZooKeeper中获取meta表所在regionServer节点信息。

  2. 客户端访问meta表所在的regionServer节点,获取region所在节点信息。

  3. 客户端访问具体region所在regionServer,找到对应的region。

  4. 首先从blockCache中读取数据,存在则返回,不存在则去memstore中读取数据,存在则返回,不存在去storeFile(HFile)中读取数据,存在会先将数据写入到blockCache中,然后返回数据,不存在则返回空。

简单的示意图如下所示:

图片

整个过程中如果读取字段过多,或者字段长度过大,那么返回所有列的数据会导致大量无效的数据传输,进而导致集群网络带宽等系统资源被大量占用,必然导致读取性能降低,所以需要减少一些不必要字段的查询。

Get类是HBase官方提供的查询类,在该类中主要有以下几个方法提供来实现减少字段读取:

  • addFamily:添加要取出的列族;

  • addColumn:添加要取出的列;

  • setTimeRange:设置要取出的版本范围;

  • setMaxVersions:设置取出版本数量。

当前项目中没有使用到HBase的版本范围和版本数量的特性,但是主要场景使用的表字段都比较多(如内容的基本属性能达到上百个字段),或者字段的大小都比较大(如内容解析的一些向量字段),原本在查询时,都是直接读取所有字段,导致很多字段其实不需要使用也被一直读取,浪费性能。通过改用按列读取的方式来实现不同场景下不同字段的查询,避免了超过一半无用字段的返回,平均响应时间也下降了一些。

4.4 compact优化

HBase是基于LSM树存储模型的分布式NoSQL数据库。LSM树相比于普遍使用在各种数据库的B+树来说,能够获得较高随机写性能的同时,也能保持可靠的随机读性能。在进行读请求的时候,LSM树要把多个子树(类似B+树结构)进行归并查询, 因此归并查询的子树数越少,查询的性能就越高。当MemStore超过阀值的时候,就要flush到HDFS上生成一个HFile。因此随着不断写入,HFile的数量将会越来越多,根据前面所述,HFile数量过多会降低读性能。为了避免对读性能的影响,可以对这些HFile进行compact操作,把多个HFile合并成一个HFile。compact操作需要对HBase的数据进行多次的重新读写,因此这个过程会产生大量的IO。可以看到compact操作的本质就是以IO操作换取后续的读性能的提高。

图片

HBase的compact是针对HRegion的HFile文件进行操作的。compact操作分为major和minor两种。major compaction会把所有的HFile都compact为一个HFile,并同时忽略标记为delete的KeyValue(被删除的KeyValue只有在compact过程中才真正被"删除"),可以想象major compaction会产生大量的IO操作,对HBase的读写性能产生影响。minor则只会选择数个HFile文件compact为一个HFile,minor的过程一般较快,而且IO相对较低。在业务高峰期间,都会禁止major操作,只在业务空闲的时段定时执行。

hbase.hstore.compaction.throughput.higher.bound是HBase中控制HFile文件合并(compaction)速度的参数之一。它指定了一个HFile文件每秒最大合并数据大小的上限,以字节为单位。如果一个HFile文件的大小超过了这个上限,HBase就会尝试将其分裂成较小的文件来加快合并速度。通过调整该参数,可以控制HBase在什么条件下开始尝试合并HFile文件。较小的值会导致更频繁的文件合并,也会降低HBase的性能。较大的值则可能导致HFile文件的大小增长过快,从而影响读取性能。

hbase.hstore.compaction.throughput.lower.bound也是HBase中控制HFile文件合并速度的参数之一。它指定了一个HFile文件每秒最小合并数据大小的下限,以字节为单位。当合并速度达到这个下限时,HBase会停止合并更小的HFile文件,而等待更多的数据到达之后再进行合并操作。与higher.bound参数相比,lower.bound参数更加影响文件合并频率和性能。过高的值会导致较少的文件合并和较大的HFile文件,这会影响读取性能和写入并发性。反之,过低的值会导致过于频繁的文件合并,从而占用过多的CPU和磁盘I/O资源,影响整个HBase集群的性能。针对Compact对业务耗时的影响,我们对Compact 操作进行了限流,并且通过多次测试调整Compact上文提到的两个限流的阈值,取得了非常好的效果。Compact期间的耗时下降了70%y以上。下图展示了采取限流前后的耗时对比。

图片

4.5 字段级版本管理

除了上述提到的优化点,我们也探索了一些HBase的其它特性,以备将来用来优化其他方面。上文提到,通过对HBase进行按列读取数据,可以减少get查询的时间,通常意义来讲,列(也就是每个字段)已经是每条数据的最基本单位了,但是HBase中的数据粒度比传统数据结构更细一级,同一个位置的数据还细分成多个版本,一个列上可以存储多个版本的值,多个版本的值被存储在多个单元格里面,多个版本之间用版本号( version)来区分。所以,唯一确定一条结果的表达式应该是行键:列族:列:版本号(rowkey:column family:column:version)。不过,版本号通常是可以省略的,如果写入时不写版本号,每个列或者单元格的值都被赋予一个时间戳,这个时间戳默认是由系统制定的,当然写入时也可以由用户显式指定具体的版本号。在查询时如果不指定版本号,HBase默认获取最后一个版本的数据返回给你。当然也可以指定版本号返回需要的其他版本的数据。简单的示意图如下所示:

图片

同时HBase为了避免数据存在过多的版本造成不必要的负担,HBase提供了两种数据版本的回收方式,一是按照数量维度,保存最后的n个版本,二是按照时间维度,保存最近一段时间的版本数据,比如保存一个月。通过多版本同时存储,对于一些有时序要求的场景非常友好,通过指定版本的时间戳,可以避免在已经更新了新数据的情况下,被旧数据覆盖。当前我们建表是都是只指定了一个版本,使用也都是用的以时间戳为版本号的默认版本,没有采取版本管理的措施,不同单元格可以记录多版本的特性可以考虑应用于字段更新时记录下多个版本的数据,在不影响读写效率的情况下,方便后续在没有相关日志的情况下,回溯最近几次更新的值,并且可以防止误操作或数据损坏,因为用户可以恢复到之前的版本数据。此外我们的系统中存在一些通过消息队列异步更新场景,此时可以使用消息体中的时间戳作为当前版本号,这样可以在多线程消费时,也能保证消费的时序性,因为低版本的版本号无法更新高版本的版本号。

五、总结

本文在对统一内容平台在数据库选型分析和优化的基础上,简要介绍了HBase在实际使用中的一些优化方案,经优化后,项目整体读取和写入性能都有比较明显的提升,较好的保障了统一内容平台业务的稳定性,并且大大降低了业务侧的运维成本。Hbase本身就具备强大的功能,在大数据领域有独有的优势,但是在不同的业务场景,对于HBase的要求也是不一样的,可以结合具体的实际情况,从使用的数据库版本、从HBase底层机制的调参、从客户端调用机制的优化等多方面挖掘,探索更适合业务的方式,希望本文中提到的一些优化方案能给读者带来一些启发。


http://www.ppmy.cn/news/1475797.html

相关文章

使用Redis实现签到功能:Java示例解析

使用Redis实现签到功能:Java示例解析 在本博客中,我们将讨论一个使用Redis实现的签到功能的Java示例。该示例包括两个主要方法:sign()和signCount(),分别用于用户签到和计算用户当月的签到次数。 1. 签到方法:sign()…

3d为什么删掉模型不能返回?---模大狮模型网

在展览3D模型设计行业中,设计师们经常面临一个关键问题:一旦删除了模型的某些部分,为什么很难或者无法恢复原始状态?这不仅是技术上的挑战,更是设计过程中需要深思熟虑的重要考量。本文将探讨这一问题的原因及其在实际工作中的影…

【图解大数据技术】Spark

【图解大数据技术】Spark Spark简介RDDSpark示例Spark运行原理整体流程DAG 与 stage 为什么Spark比MapReduce快? Spark简介 Spark与MapReduce一样,也是大数据计算框架。Spark相比MapReduce拥有更快的执行速度和更低的编程复杂度。 Spark包括以下几个模…

AI算法17-贝叶斯岭回归算法Bayesian Ridge Regression | BRR

贝叶斯岭回归算法简介 贝叶斯岭回归(Bayesian Ridge Regression)是一种回归分析方法,它结合了岭回归(Ridge Regression)的正则化特性和贝叶斯统计的推断能力。这种方法在处理具有大量特征的数据集时特别有用&#xff…

搜索引擎中的相关性模型

一、什么是相关性模型? 相关性模型主要关注的是query和doc的相关性。例如给定query,和1000个doc,找到哪个doc是好query最相关的。 二、为什么需要相关性模型? 熟悉es的应该都熟悉BM25相关性算法。它是一个很简单的相关性算法。我…

Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制

章节内容 上节我们完成了: ZooKeeper 集群配置ZooKeeper 集群启动ZooKeeper 集群状况查看Follower 和 Leader 节点 背景介绍 这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。 之前已经在 VM 虚拟机上搭…

jenkins系列-06.harbor

https://github.com/goharbor/harbor/releases?page2 https://github.com/goharbor/harbor/releases/download/v2.3.4/harbor-offline-installer-v2.3.4.tgz harbor官网:https://goharbor.io/ 点击 Download now 链接,会自动跳转到上述github页面&am…

多旋翼+VR眼镜:10寸FPV穿越机技术详解

FPV(First Person View)穿越机,是指通过第一人称视角来驾驶的无人机,特别强调速度和灵活性,常常用于竞赛、航拍和探索等领域。结合多旋翼设计和VR眼镜,FPV穿越机为用户提供了身临其境的飞行体验。 多旋翼技…

Android人脸解锁源码解析

1 人脸解锁相关类介绍 FaceManager FaceManager是一个私有接口,用于维护FaceService的之间连接。Keyguard通过该接口访问具有自定义界面的人脸识别身份验证硬件。应用无权访问FaceManager,必须改为使用BiometricPrompt。 FaceService 该框架实现用于管…

vscode连接到WSL子系统报错/bin/ea1445cc7016315d0f5728f8e8b12a45dc0a7286/node: not found

子系统单独启动没有问题,vscode启动wsl子系统报错 报错如下: /home/sophia/.vscode-server/bin/ea1445cc7016315d0f5728f8e8b12a45dc0a7286/bin/code-server: 12: /home/sophia/.vscode-server/bin/ea1445cc7016315d0f5728f8e8b12a45dc0a7286/node: n…

git github gitee 三者关系

Git: Git 是一个分布式版本控制系统,用于跟踪源代码的更改。它由 Linus Torvalds 于 2005 年开发,目的是更好地管理 Linux 内核开发。Git 是一个命令行工具,具有以下特点: 分布式:每个开发者的工作目录都是…

B树:深入解析与实战应用

在数据结构和算法的世界中,B树(B-tree)无疑是一颗璀璨的明星。它不仅广泛应用于数据库和文件系统的索引结构中,而且在许多需要高效数据检索的场景中发挥着重要作用。本文将从B树的基本概念入手,通过图文结合的方式&…

海外媒体宣发:尼日利亚媒体通稿报道发布-大舍传媒

尼日利亚媒体概述 尼日利亚,作为非洲人口最多的国家,拥有多元化的媒体环境。在这个国家,你可以找到各种类型的媒体,包括传统媒体和新媒体。传统媒体主要包括报纸、电视和广播,而新媒体则主要是互联网和社交媒体。 尼…

Java+springboot+vue智慧班牌小程序源码,智慧班牌系统可以提供哪些服务?

智慧班牌全套源码,系统技术架构:Javaspringbootvue element-ui小程序电子班牌:Java Android演示正版授权。 智慧班牌在智慧校园的数字化建设中提供了多种服务,这些服务不仅丰富了校园的信息展示方式,还促进了家校互动…

Open-TeleVision——通过VR沉浸式感受人形机器人视野:兼备远程控制和深度感知能力

前言 7.3日,我司七月在线(集AI大模型职教、应用开发、机器人解决方案为一体的科技公司)的「大模型机器人(具身智能)线下营」群里的一学员发了《Open-TeleVision: Teleoperation with Immersive Active Visual Feedback》这篇论文的链接 我当时快速看了一遍&#x…

ASP.NET MVC-制作可排序的表格组件-PagedList版

环境: win10 参考: 学习ASP.NET MVC(十一)——分页 - DotNet菜园 - 博客园 https://www.cnblogs.com/chillsrc/p/6554697.html ASP.NET MVCEF框架实现分页_ef 异步分页-CSDN博客 https://blog.csdn.net/qq_40052237/article/details/106599528 本文略去…

ATE电源芯片测试方案之效率曲线评估芯片性能

在电子产品的设计中,电源管理芯片的效率优化是提升能效和延长使用寿命的关键。因此,探究电源管理芯片在不同工作条件下的效率变化,并通过效率曲线进行可视化表达,对于电源管理技术的进步至关重要。 电源管理芯片的效率曲线 鉴于电…

【C++深入学习】类和对象(一)

欢迎来到HarperLee的学习笔记! 博主主页传送门:HarperLee博客主页! 欢迎各位大佬交流学习! 本篇本章正式进入C的类和对象部分,本部分知识分为三小节。复习: 结构体复习–内存对齐编译和链接函数栈桢的创建…

OpenCV solvePnP位姿估计

目录 一、概述 二、实现代码 2.1solvePnP函数 2.1.1输入参数 2.1.2输出参数 2.2完整代码 三、实现效果 3.1标定板位姿 3.2标定板到相机的变换矩阵 一、概述 完成相机标定后,可以通过检测标定板在图像中的位置来计算标定板在相机坐标系下的位姿(…

vue 项目代码架构

Vue项目的代码架构通常遵循一定的组织结构和约定,以提高项目的可维护性、可扩展性和可读性。以下是对Vue项目代码架构的详细解析: 一、项目目录结构 Vue项目的目录结构通常包括以下几个关键部分: 根目录: package.json&#x…