Count-Min Sketch

embedded/2025/1/18 14:08:15/

An Improved Data Stream Summary: The Count-Min Sketch and its Applications

目的: 解决大数据中的频繁项(Heavy Hitters)问题(参考大数据流的在线Heavy Hitters算法(上篇):基于计数器的方法-CSDN博客)

核心思想: 可以把CMS看成一个二维(w*d)的布隆过滤器,每个hash函数一行(h1...hd,共d列),新数据项到来时,h1-hd计算各自的哈希值,然后每行都更新对应位的计数值。

估计某元素i的出现频率,方法是直接取元素i对应的不同行哈希桶中,计数值最小的那个。

(因为有碰撞,所以是近似准确)

这里w=⌈e/ε⌉, d=⌈ln⁡(1/δ)⌉,即在 1−δ 的概率下,总误差(所有元素查询误差的之和)小于 ε 。

证明过程就不写了,网上很多。


http://www.ppmy.cn/embedded/154958.html

相关文章

Visual Studio Community 2022(VS2022)安装方法

废话不多说直接上图: 直接上步骤: 1,首先可以下载安装一个Visual Studio安装器,叫做Visual Studio installer。这个安装文件很小,很快就安装完成了。 2,打开Visual Studio installer 小软件 3&#xff0c…

Linux-day07

第16章 搭建JavaEE环境 安装配置JDK17 一般来说,安装的软件都放在opt下面 ./代表在当前目录去找这一个程序 以上就是自己操作的安装步骤,其中/etc/profile的两行记得(未附图) 安装配置tomcat8 安装的时候没有配置环境变量 安装配…

汇编语言:基于x86处理器考前笔记 | 第五章 过程

重点难点内容 掌握堆栈指令 指令:push、pop、CALL、RET、PROC、ENDP 和 USES。应用:理解堆栈操作的原理,包括入栈和出栈操作,以及堆栈在程序中的作用。 堆栈操作 1. 堆栈概念 定义:堆栈是内存中的一部分区域&…

1.15寒假作业

web:nss靶场ez_ez_php 打开环境,理解代码 使用个体传参的方法,首先代码会检查file参数的前三个字符是不是php,如果是就输出nice,然后用include函数包含file,绕过不是则输出hacker,如果没有file…

xilinx FPGA 平台实现数字信号 -- 低通滤波

xilinx FPGA 平台实现低通滤波效果: 生成一个10KHZ 叠加上100KHZ的信号,定义成data_all使用1MHZ 采样频率,采取data_all 信号1024个点试用低通滤波器 滤除100KHZ的信号,恢复出10KHZ信号 以下是matlab中实现: clc; c…

WINFORM - DevExpress -> devexpress版--报表(report)

devexpress report模板 1.安装devexpress(DevExpress 总结【安装、案例】_caoyanchao1的博客-CSDN博客_devexpress)2.新建vs项目且添加standarReportDesigner控件 涛神设计器注意 3.运行后步骤 点击New Report DetailReport 涛神设计器checkbox(3.复选框只认boolean类型的 bo…

pip install transformers教程

直接pip install transformers会报错,报错内容如下: Collecting safetensors>0.3.1 (from transformers)Using cached safetensors-0.5.2.tar.gz (66 kB)Installing build dependencies ... doneGetting requirements to build wheel ... donePrepar…

【客观对比】激光雷达 vs 纯视觉方案:汽车自动驾驶的两种路径

激光雷达 vs 纯视觉方案:汽车自动驾驶的两种路径 导语 汽车自动驾驶技术正以惊人的速度发展,未来无疑会彻底改变我们的出行方式。在这场技术竞争中,激光雷达(LiDAR)和纯视觉(Camera-based)方案…