Redis系列:HyperLogLog实现海量数据基数统计

ops/2024/11/20 13:35:42/

1 前言

我们来回顾下在这个系列的篇 深刻理解高性能Redis的本质 中介绍过Redis的几种基本数据结构,
它服务于各种不同的业务场景而设计的,比如:

  • 动态字符串(REDIS_STRING):整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)
  • 双端列表(REDIS_ENCODING_LINKEDLIST)
  • 压缩列表(REDIS_ENCODING_ZIPLIST)
  • 跳跃表(REDIS_ENCODING_SKIPLIST)
  • 哈希表(REDIS_HASH)
  • 整数集合(REDIS_ENCODING_INTSET)

除了这些常见数据类型,还有一些不常用的数据类型,如 BitMap、Geo、HyperLogLog 等等,他们在各自的方向为不同的类型的数据统计给出解决方案。

  • 位图(BitMap)计算:可以应用于任何大数据场景下的二值计算,比如 是否登录、是否在线、是否签到、用户性别状态、IP黑名单、是否VIP用户统计 等等场景。
  • Geo类型:记录地理空间信息,如 地理坐标存储、位置计算、距离计算等能力,普遍运用在地图业务中的各种场景。

这一篇我们来介绍下HyperLogLog,HyperLogLog 主要用于Redis基数的统计,比如IP统计,用户访问量,页面访问量。

2 关于HyperLogLog

HyperLogLog 主要用于Redis 的基数统计,它的数据结构专门设计用来做数据合并和计算,并能节省大量的空间。
基数计数( cardinality counting) 通常用来统计一个集合中不重复的元素个数 , 例如统计某个网站的UV、PV或者网站搜索的的关键词数量。
在各种应用领域基数统计被广泛应用,如数据分析、网络监控指标、存储性能优化等。
简单来说,基数计数就是记录集合中所有不重复的元素Su ,当新增元素Xa时,判断Su中是否包含,不包含则将其加入Su,包含则不加入,计数值就是Su 的元素数量总和。
当然这种做法也存在两个问题:

2.2 高效和海量特性

如果我们使用普通集合,也能够实现对巨量数据的存储和统计么,但是存储量会大很多,性能也比较差。

以百度搜索为例,如果要做百度指数的计算,针对来访IP进行统计。那么如果每天 有 1000 万 IP,一个 IP 占位 15 字节,那么 1000 万个 IP 就是 143M。

  1. 当统计的数据量变大时,相应的存储内存也会线性增长
  2. 当集合Su 变大,判断其是否包含新加入元素的成本变大

    2.1 实际应用场景

    很多计数类场景,比如 每日注册 IP 数、每日访问 IP 数、页面实时访问数 PV、访问用户数 UV等。
    因为主要的目标高效、巨量地进行计数,所以对存储的数据的内容并不关系。也就是说它只能用于统计数量,没办法知道具体的统计对象的内容。

  3. 统计单日一个页面的访问量(PV),单次访问就算一次。
  4. 统计单日一个页面的用户访问量(UV),即按照用户为维度计算,单个用户一天内多次访问也只算一次。
  5. 多个key的合并统计,某个门户网站的所有模块的PV聚合统计就是整个网站的总PV。
10,000,000 * 15 /(1024 * 1024)  = 143.05 M

如果使用 HyperLogLog ,那么在 Redis 中每个键占用的内容都是 12K,理论上能够存储 264 个值,即18446744073709551616,这个数是巨量,Java中long类型也只能计算到 262 。
无论存储何值,它一个基于基数估算的算法HyperLogLog Counting(简称HLLC),使用少量固定的内存去存储并识别集合中的唯*一元素。
HLLC采用了分桶平均的思想来消减误差,在Redis中, 有16384个桶 。而HyperLogLog的标准偏差公式是1.04 / sqrt(m),m 为桶的个数。所以

1.04 / sqrt(16384) = 1.04 / 128 = 0.008125 

所以这个计数的估算,是一个带有 0.81% 标准偏差的近似值。

3 HyperLogLog所支持的能力

HyperLogLog数据结构的命令有三个:PFADD、PFCOUNT、PFMERGE

3.1 PFADD 添加计数

Redis Pfadd 命令将所有元素添加到 HyperLogLog 数据结构中。

语法如下:

redis > PFADD key element [element ...]

下面举例了网站统计模块添加IP的两种情况

/* 对访问百度网站(key=baidu:ip_address)的IP进行添加 */
redis> PFADD baidu:ip_address "192.168.0.1" "192.168.0.2" "192.168.0.3"
(integer) 1/* 如果IP已经存在,则进行忽略,不对估计数量进行更新 */
redis> PFADD baidu:ip_address "192.168.0.3"  
(integer)   # IP已经存在

3.2 PFCOUNT 统计数量

Redis Pfcount 命令返回给定 HyperLogLog 的基数的估算值。
语法如下:

redis > PFCOUNT key [key ...]

下面估算了访问IP的基数的值,返回 1034546 。

redis> PFCOUNT baidu:ip_address(integer) 1034546

3.3 PFMERGE 合并统计

Redis PFMERGE 命令将多个 HyperLogLog 合并为一个 HyperLogLog ,合并后的 HyperLogLog 的基数估算值是对给定 HyperLogLog 进行并集计算得出的。
所以有重复的会被统计成一条数据。
合并得出的 HyperLogLog 会被储存在 destkey 键里面, 如果该键并不存在,那么命令在执行之前, 会先为该键创建一个空的 HyperLogLog 。
语法如下:

redis > PFMERGE destkey sourcekey [sourcekey ...]

下面演示了合并和统计的过程:

/* 统计百度 baidu:ip_address 访问IP */
redis> PFADD baidu:ip_address "192.168.0.1" "192.168.0.2" "192.168.0.3"
(integer) 1/* 统计淘宝 taobao:ip_address 访问IP */
redis> PFADD taobao:ip_address "192.168.0.3" "192.168.0.4" "192.168.0.5"
(integer) 1/* 合并且去重之后放在 total:ip_address  */
redis> PFMERGE total:ip_address baidu:ip_address taobao:ip_address
OK/* 结果为5 */
redis> PFCOUNT total:ip_address
(integer) 5

4 总结

基数计数是用于统计一个集合中不重复的元素个数,好比平常需求场景有,统计页面的UV或者统计在线的用户数、注册IP数等。HyperLogLog 主要基于Redis能力下的基数统计。HyperLogLog的主要使用场景包括:

  1. 统计单日一个页面的访问量(PV),单次访问就算一次。
  2. 统计单日一个页面的用户访问量(UV),即按照用户为维度计算,单个用户一天内多次访问也只算一次。
  3. 多个key的合并统计,某个门户网站的所有模块的PV聚合统计就是整个网站的总PV。

http://www.ppmy.cn/ops/17202.html

相关文章

年费会员免费送

沉淀网络安全精华内容,资料总价值20W,八大板块内容总有你满意的,只做高质量优质精品内容,圈子内所有资料都可自行进行下载 圈子简介 安全课程视频(价值10w)-仅限内部使用(为提升观感仅展示一条内容) 安全…

设计模式|原型模式(Prototype Pattern)

文章目录 什么是原型模式结构优缺点优点缺点举例代码示例原型模式vs复制(copy)什么是原型模式 原型模式(Prototype Pattern)是一种创建型设计模式,其核心思想是通过复制现有对象来创建新对象,而无需显式地指定它们的类。这种模式通常用于当对象的创建成本较高,或者对象…

ABB工业机械手IRB7600减速器维修识别故障

ABB机器人齿轮箱是机器人的核心部件之一,其维护和保养直接关系到机器人的使用寿命和工作效率。ABB工业机械手减速机主要由齿轮、轴承、油封等部件组成。减速器的主要功能是将电机的旋转运动转换为机器人的线性运动,从而实现机器人的各种动作。 常见的ABB…

Vue2源码学习路径

文章的更新路线:JavaScript基础知识-Vue2基础知识-Vue3基础知识-TypeScript基础知识-网络基础知识-浏览器基础知识-项目优化知识-项目实战经验-前端温习题(HTML基础知识和CSS基础知识已经更新完毕) 正文 核心代码 它主要包括 Vue 实例、模板编…

【下周一第434期JSTO—“趋势 | 洞察”】

国际形势的动荡和国内新政的推行,正共同塑造着我们的市场和经济环境。在这种多变的背景下,对每个人的工作、客户关系和生活方式都产生了不小的影响。本周,我们荣幸邀请到杨老师,将带领我们深入探讨“国九条政策对未来行业的潜在影…

C#关键字汇总

C#是一种强大且灵活的编程语言,拥有许多关键字,用于声明类型、变量、方法、类等。以下是C#中的一些主要关键字和它们的简要描述: 1.访问修饰符: public:访问不受限制。 private:访问仅限于当前类。 prot…

AI:164- python获取图像边缘轮廓

本文收录于专栏:精通AI实战千例专栏合集 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 每一个案例都附带关键代码,详细讲解供大家学习,希望可以帮到大家。正在不断更新中~ 一.Python获取图像边缘轮廓 在图像处…

GUI测试首推!TestComplete 帮助有效缩短 40-50% 测试时长!

TestComplete 是一款自动化UI测试工具,这款工具目前在全球范围内被广泛应用于进行桌面、移动和Web应用的自动化测试。 TestComplete 集成了一种精心设计的自动化引擎,可以自动记录和回放用户的操作,方便用户进行UI(用户界面&…