StarRocks-join优化

embedded/2024/11/28 13:57:52/

1、背景

        有两个大表,都是6kw级别上下的,通过SR然后包装了一个接口对外提供查询,当前的问题是,这样大的join查询会导致BE直接宕机。并且这个sql很有代表性,我截图如下:

这个表是个单分区,所以直接查全表没啥问题。最后其实是要输出的是limit 10 。

那么这个limit 10能否下推呢?

2、解决方案:

方案一:

Select*
From(Select*Fromdws_d_topic_realname_vehicle_sim_info_snaLimit 100) t  
Join dws_d_topic_realname_vehicle_sim_info_sna t2 Ont.vin = t2.vin
Limit 100;

我这里是模拟两个表之间的join操作,看下profile

- RawRowsRead: 101.496M (101496209)- __MAX_OF_RawRowsRead: 359.008K (359008)- __MIN_OF_RawRowsRead: 253.240K (253240)- ReadPagesNum: 45.454K (45454)- __MAX_OF_ReadPagesNum: 149- __MIN_OF_ReadPagesNum: 113- RowsRead: 200- __MAX_OF_RowsRead: 100- __MIN_OF_RowsRead: 0

查询不到一秒出结果。

方案二:

Select*
From(Select*Fromdws_d_topic_realname_vehicle_sim_info_snaLimit 100) t
Join (Select*Fromdws_d_topic_realname_vehicle_sim_info_snaLimit 100) t2 
Limit 100;

查询不到一秒出结果。

看profile就更炸裂了

- RawRowsRead: 3.300K (3300)- __MAX_OF_RawRowsRead: 100- __MIN_OF_RawRowsRead: 100- ReadPagesNum: 2.248K (2248)- __MAX_OF_ReadPagesNum: 70- __MIN_OF_ReadPagesNum: 68- RowsRead: 3.300K (3300)- __MAX_OF_RowsRead: 100- __MIN_OF_RowsRead: 100

扫描的数据大大减少,还是很牛的,欢迎交流。

附上最原始的查询做下对比:

  1. 查询语句:
Select*
From(Select*Fromdws_d_topic_realname_vehicle_sim_info_sna) t
Join dws_d_topic_realname_vehicle_sim_info_sna t2 Ont.vin = t2.vin
Limit 100;

2. profile日志  

- RawRowsRead: 101.496M (101496209)- __MAX_OF_RawRowsRead: 359.008K (359008)- __MIN_OF_RawRowsRead: 253.240K (253240)- ReadPagesNum: 299.036K (299036)- __MAX_OF_ReadPagesNum: 1.170K (1170)- __MIN_OF_ReadPagesNum: 597- RowsRead: 101.496M (101496192)- __MAX_OF_RowsRead: 359.008K (359008)- __MIN_OF_RowsRead: 253.237K (253237)- ScanTime: 927.950ms- __MAX_OF_ScanTime: 1s351ms- __MIN_OF_ScanTime: 467.955ms


http://www.ppmy.cn/embedded/141197.html

相关文章

【Zookeeper】四,Zookeeper节点类型、通知、仲裁、会话

文章目录 Zookeeper的架构znode的版本Zookeeper的节点类型层级树状结构znode的不同类型 Zookeeper监视与通知通知的类型 Zookeeper的仲裁Zk的会话会话的生命周期 Zookeeper的架构 Zookeeper的服务器端运行两种模式:独立模式(standalone)和仲…

Kadb中的ecpg编程

Kadb中的ecpg编程 测试程序: #include "stdio.h" #include "stdlib.h" #include "string.h" // 相当于高级程序语言的全局变量定义 EXEC SQL BEGIN DECLARE SECTION; // 主变量声明开始 const char* target1 "postgres192.168…

HarmonyOS:应用沙箱

一、应用文件概述 应用文件:文件所有者为应用,包括应用安装文件、应用资源文件、应用缓存文件等。 设备上应用所使用及存储的数据,以文件、键值对、数据库等形式保存在一个应用专属的目录内。该专属目录我们称为“应用文件目录”,…

python爬虫安装教程

Python爬虫是用于从网站上自动抓取信息的程序。在开始之前,请确保您了解并遵守目标网站的服务条款,尊重版权法,并且在合理合法的范围内使用爬虫技术。 安装环境 安装Python:首先确保您的计算机上已经安装了Python。推荐版本为3.…

学习日志 --A5rZ

24.11.27 0001:2024 强网杯青少年专项赛 EnterGam 复现已完成 0002:在x86上模拟arm64(搁置,原因:资料过少,可行性过低) 0003:2024 强网杯青少年专项赛 Flip_over 复现终止(无arm真机) 0004: 开始复现 2024 强网杯青少年专项赛 journey_story

「Mac畅玩鸿蒙与硬件33」UI互动应用篇10 - 数字猜谜游戏

本篇将带你实现一个简单的数字猜谜游戏。用户输入一个数字,应用会判断是否接近目标数字,并提供提示“高一点”或“低一点”,直到用户猜中目标数字。这个小游戏结合状态管理和用户交互,是一个入门级的互动应用示例。 关键词 UI互…

LabVIEW实现UDP通信

目录 1、UDP通信原理 2、硬件环境部署 3、云端环境部署 4、UDP通信函数 5、程序架构 6、前面板设计 7、程序框图设计 8、测试验证 本专栏以LabVIEW为开发平台,讲解物联网通信组网原理与开发方法,覆盖RS232、TCP、MQTT、蓝牙、Wi-Fi、NB-IoT等协议。 结合…

【技术文档:技术传播的灯塔】

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…