Oceanbase-Topk直方图

news/2024/11/14 15:15:51/

文章目录

  • 计算公式:
  • 公式的含义:
  • 举例解释
    • 场景设定
    • 直方图记录情况
    • 结果分析
  • 总结

计算公式:

(1 - (1 / bucket_size)) * 100
这个计算公式,用来确定在 Topk 直方图中,哪些值会被认为是“重要值”,即超过特定的百分比阈值时会被记录在直方图中。它反映了每个桶(bucket)在直方图中的重要性。让我们具体解释一下如何理解这个公式。

公式的含义:

bucket_size:直方图的桶数(即最大不同值的数量),通常为254。这意味着直方图最多可以容纳254个不同的值(或频率最高的254个值)。
(1 - (1 / bucket_size)) * 100:这个计算表示单个桶在总体中的最低百分比权重。若某个值的频率低于这个百分比,就不会被记录在直方图中。

举例解释

场景设定

假设有一张包含 10,000 行数据的表,某列的数据分布如下:

出现次数
A5000
B2000
C500
D200
E100
F100
G100
H100
其他1900

在这张表中,有几个数据的出现频率相对较高(比如 A 和 B),其余数据的出现频率较低。
使用 Topk 直方图
我们为这个列创建 Topk 直方图,并设置bucket_size = 254。此时,公式计算的最低百分比阈值为:
(1 - (1 / bucket_size)) * 100=(1-(1/254))*100=99.60%

这意味着在直方图中,只有出现频率超过总数据量的 0.4% 的值会被记录在直方图中。对于这张 10,000 行的数据表:

0.4% 的 10,000 行是 40 行。因此,只有出现次数超过 40 的值才会被记录在直方图中。

直方图记录情况

根据这个标准,我们来看看哪些值会被记录在直方图中:

出现次数记录情况
A5000记录
B2000记录
C500记录
D200记录
E100记录
F100记录
G100记录
H100记录
其他1900(每个值少于40次)不记录

结果分析

A、B、C 等值因其出现频率超过了 0.4%,所以被记录在直方图中。
其他值(合计 1900 次,但每个值单独的出现次数都低于 40 次)不会被记录在直方图中,因为它们的出现频率低于 0.4%,被认为对优化查询不重要。

总结

这个最低百分比阈值的目的是确保直方图只记录出现频率较高的“重要”值,从而减少直方图的大小和复杂度,使查询优化器能够更高效地使用这些频率信息。


http://www.ppmy.cn/news/1546702.html

相关文章

网络安全-蓝队基础

声明 学习视频来自 B 站UP主泷羽sec,如涉及侵权马上删除文章。 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负。 ✍🏻作者简介:致…

企业信息表的多维数据增强:资质属性与海关数据的添加方法

文章目录 摘要1. 背景介绍2. 原始数据简介海关数据 3. 企业资质添加:代码实现3.1 表格拼接3.2 企业资质属性添加 4. 海关数据添加5. 总结 摘要 本文探讨了如何通过企业资质和海关出口数据的加入,丰富企业信息表的维度,为企业分析提供更强大的…

进程 线程 和go协程的区别

进程和线程是操作系统中两个重要的执行单元,理解它们的区别对于编程和系统设计非常重要。以下是它们的主要区别: ### 进程(Process) 定义:进程是一个正在执行的程序的实例,具有独立的地址空间。 资源&…

使用JS实现文件流转换excel?

要在JavaScript中将文件流转换为Excel,可以使用第三方库,如SheetJS (也称为xlsx库)。以下是一个简单的例子,展示如何使用SheetJS将Blob文件流转换为Excel文件并导出。 首先,确保安装了xlsx库: npm install xlsx 然后…

esayExcel根据模板导出包含图片

1、效果 2、模板 3、工具类代码 /*** 根据模板填充* param response* param templateStream 模板文件流* param map 模板文件所需要的参数* param list list循环模板参数* throws IOException*/public static void templateFilling(HttpServletRequest servletRequest,HttpServ…

31DNS设置

每天五分钟学Linux | 第三十一课:DNS设置 大家好!欢迎再次来到我们的“每天五分钟学Linux”系列教程。在前面的课程中,我们学习了如何配置Linux系统的IP地址。今天,我们将探讨如何设置DNS(域名系统)&#…

Rust 中的 match 基本用法

Rust 中的 match 是一个强大的控制流运算符,它允许你将一个值与一系列的模式进行匹配,并根据匹配的模式执行代码。以下是 match 的基本用法: 基础语法 match value {模式1 > 表达式1,模式2 > 表达式2,_ > 默认表达式, }示例 下面…

图论导引 - 第三章 第一节:连通性 - 11/09

章节概述 第三章(Paths and cycles)主要讲述了路径和循环相关的图论知识,包括四个部分:连通性、欧拉图、哈密顿图、一些相关算法应用。 连通性 Connectivity 通道 walk 给定一个图 G G G , G G G中的一条通道&…