在Mysql中
distinct 从结果中删除重复行
group by 是分组聚合
在语义相同,有索引的情况下:
group by和distinct都能使用索引,效率相同。因为group by和distinct近乎等价,distinct可以被看做是特殊的group by。
在语义相同,无索引的情况下:
distinct效率高于group by。原因是distinct 和 group by都会进行分组操作,但group by在Mysql8.0之前会进行隐式排序,导致触发filesort,sql执行效率低下。
但从Mysql8.0开始,Mysql就删除了隐式排序,所以,此时在语义相同,无索引的情况下,group by和distinct的执行效率也是近乎等价的。
推荐group by的原因:
group by语义更为清晰
group by可对数据进行更为复杂的一些处理
相比于distinct来说,group by的语义明确。且由于distinct关键字会对所有字段生效,在进行复合业务处理时,group by的使用灵活性更高,group by能根据分组情况,对数据进行更为复杂的处理,例如通过having对数据进行过滤,或通过聚合函数对数据进行运算
在Hive中
distinct是在一个reduce中计算,无法发挥MR并行计算的优势,而group by 可以。
实际中:写distinct和group by 来做去重复,其效果性能是一样的。因为hive在执行SQL前优化改写distinct为group by模式。