An Improved Data Stream Summary: The Count-Min Sketch and its Applications
目的: 解决大数据中的频繁项(Heavy Hitters)问题(参考大数据流的在线Heavy Hitters算法(上篇):基于计数器的方法-CSDN博客)
核心思想: 可以把CMS看成一个二维(w*d)的布隆过滤器,每个hash函数一行(h1...hd,共d列),新数据项到来时,h1-hd计算各自的哈希值,然后每行都更新对应位的计数值。
估计某元素i的出现频率,方法是直接取元素i对应的不同行哈希桶中,计数值最小的那个。
(因为有碰撞,所以是近似准确)
这里w=⌈e/ε⌉, d=⌈ln(1/δ)⌉,即在 1−δ 的概率下,总误差(所有元素查询误差的之和)小于 ε 。
证明过程就不写了,网上很多。