Mysql Hive中distinct 和 group by 效率

news/2024/11/25 16:04:20/

在Mysql中

distinct 从结果中删除重复行
group by 是分组聚合

在语义相同，有索引的情况下：

group by和distinct都能使用索引，效率相同。因为group by和distinct近乎等价，distinct可以被看做是特殊的group by。

在语义相同，无索引的情况下：

distinct效率高于group by。原因是distinct 和 group by都会进行分组操作，但group by在Mysql8.0之前会进行隐式排序，导致触发filesort，sql执行效率低下。
但从Mysql8.0开始，Mysql就删除了隐式排序，所以，此时在语义相同，无索引的情况下，group by和distinct的执行效率也是近乎等价的。

推荐group by的原因:

group by语义更为清晰
group by可对数据进行更为复杂的一些处理
相比于distinct来说，group by的语义明确。且由于distinct关键字会对所有字段生效，在进行复合业务处理时，group by的使用灵活性更高，group by能根据分组情况，对数据进行更为复杂的处理，例如通过having对数据进行过滤，或通过聚合函数对数据进行运算

在Hive中

distinct是在一个reduce中计算，无法发挥MR并行计算的优势，而group by 可以。

实际中：写distinct和group by 来做去重复，其效果性能是一样的。因为hive在执行SQL前优化改写distinct为group by模式。

http://www.ppmy.cn/news/27216.html

相关文章

WEB静态交互展示【数据mock】

WEB静态交互展示【数据mock】

文章目录背景需求分析实现过程1.爬取原有项目数据2.将数据引入项目3.打包收工后记背景接到公司一个【离谱】的需求，要求把已有的项目做一个演示版本（静态文件版本）；本人觉得前端、后端搞个容器包，一个演示版本不就有…

阅读更多...

ES-倒排索引BKD原理skiplist

ES-倒排索引BKD原理skiplist

1.Elasticsearch数据存储结构FST、skiplist、BKD-tree、LSM-tree Elasticsearch数据结构存储流程_善思的博客-CSDN博客_elasticsearch 数据结构 number?keyword?傻傻分不清楚 - Elastic 中文社区 ElasticSearch实战（六）-Skip List 跳表算法&#xf…

阅读更多...

鲲鹏云服务器上使用 traceroute 命令跟踪路由

鲲鹏云服务器上使用 traceroute 命令跟踪路由

traceroute 命令跟踪路由它由遍布全球的几万局域网和数百万台计算机组成，并通过用于异构网络的TCP/IP协议进行网间通信。互联网中，信息的传送是通过网中许多段的传输介质和设备（路由器，交换机，服务器，网关…

阅读更多...

【Python】序列与列表（列表元素的增删改查，求之，列表推导式、列表的拷贝）

【Python】序列与列表（列表元素的增删改查，求之，列表推导式、列表的拷贝）

一、序列序列的概念：按照某种顺序排列的数据类型就叫做序列，比如字符串，列表，元组，集合序列的共同点是都有下标，支持index()方法和count()，也支持切片处理(等同于字符串序列的切片处理)l1 [0, …

阅读更多...

SpringBoot 整合定时任务

SpringBoot 整合定时任务

注解概览 EnableScheduling 在配置类上使用，开启计划任务的支持（类上） Scheduled 来申明这是一个任务，包括cron,fixDelay,fixRate等类型（方法上，需先开启计划任务的支持） pom依赖 <parent…

阅读更多...

SpringCloud+Dubbo3 = 王炸！

SpringCloud+Dubbo3 = 王炸！

前言全链路异步化的大趋势来了随着业务的发展，微服务应用的流量越来越大，使用到的资源也越来越多。在微服务架构下，大量的应用都是 SpringCloud 分布式架构，这种架构总体上是全链路同步模式。全链路同步模式不仅造成了资源…

阅读更多...

【数据结构与算法】算法的时间复杂度和空间复杂度

【数据结构与算法】算法的时间复杂度和空间复杂度

文章目录前言1.算法效率1.1.如何衡量一个算法的好坏1.2.算法的复杂度2.时间复杂度2.1.时间复杂度的概念2.2.大O的渐进表示法2.3.常见时间复杂度计算举例2.4.常见时间复杂度3.空间复杂度4.复杂度oj练习Practice.1 消失的数字Practice.2 旋转数组写在最后前言关于时空复杂度的分…

阅读更多...

【MySQL进阶】锁

【MySQL进阶】锁

😊😊作者简介😊😊 ： 大家好，我是南瓜籽，一个在校大二学生，我将会持续分享Java相关知识。 🎉🎉个人主页🎉🎉 ： 南瓜籽的主页…

阅读更多...

最新文章