hive高频写入小数据,导致hdfs小文件过多,出现查询效率很低的情况

devtools/2025/2/19 16:03:55/

问题描述

hive高频写入小数据,导致hdfs小文件过多,出现查询效率很低的情况

分析过程

先复现现象

select count() from ads.ads_sdd_flow_managemlt_to_ids_mm;–15分钟,小文件10983
select max(mm) from ads.ads_sdd_flow_managemlt_to_ids_mm;–6分钟,小文件10983
select count(
) from ads.ads_sdd_flow_managemlt_to_ids_mm_tmp20250214;–1分钟,只有一个文件
select max(mm) from ads.ads_sdd_flow_managemlt_to_ids_mm_tmp20250214;–41秒,只有一个文件
所以查询时间长是因为小文件导致

插入实验

实验证明一次插入都会有一个copy文件生成,ads_sdd_flow_management_result_to_ids_mm写入频率很高,所以小文件很多
在这里插入图片描述

解决方法

使用insert overwrite table插入数据,这样子不会产生很多小文件。


http://www.ppmy.cn/devtools/159223.html

相关文章

Vue学习笔记之基础篇

本文为Vue学习笔记,内容主要来源于Vue官方教程。过程中将某些API与React做了对比,方便更好地理解以及加深记忆。 创建一个Vue应用 应用实例 Vue中有应用实例的概念,并且在应用实例上开放了很多接口,在应用配置部分会提到。Reac…

小爱音箱控制手机和电视听歌的尝试

最近买了小爱音箱pro,老婆让我扔了,吃灰多年的旧音箱。当然舍不得,比小爱还贵,刚好还有一台红米手机,能插音箱,为了让音箱更加灵活,买了个2元的蓝牙接收模块Type-c供电3.5接口。这就是本次尝试起…

pytorch训练五子棋ai

有3个文件 game.py 五子棋游戏 mod.py 神经网络模型 xl.py 训练的代码 aigame.py 玩家与对战的五子棋 game.py class Game:def __init__(self, h, w):# 行数self.h h# 列数self.w w# 棋盘self.L [[- for _ in range(w)] for _ in range(h)]# 当前玩家 - 表示空 X先…

Dockerfiles 的 Top 10 常见 DevOps/SRE 面试问题及答案

1. RUN 和 CMD 之间有什么区别? RUN : 在镜像构建过程中执行命令,创建一个新的层。通常用于安装软件包。 示例: RUN apt-get update && apt-get install -y curlCMD : 指定容器启动时默认运行的命令。它在运行时执行,而不是在构建过程…

基于HTML5 Canvas 和 JavaScript 实现的烟花动画效果

以下是一个使用 HTML5 Canvas 和 JavaScript 实现的烟花动画效果代码盒子: <!DOCTYPE html> <html> <head><title>烟花效果

开源模型应用落地-Qwen1.5-MoE-A2.7B-Chat与vllm实现推理加速的正确姿势(一)

一、前言 在人工智能技术蓬勃发展的当下,大语言模型的性能与应用不断突破边界,为我们带来前所未有的体验。Qwen1.5-MoE-A2.7B-Chat 作为一款备受瞩目的大语言模型,以其独特的架构和强大的能力,在自然语言处理领域崭露头角。而 vllm 作为高效的推理库,为模型的部署与推理提…

RedHat8安装postgresql15和 postgis3.4.4记录及遇到的问题总结

安装包对照版本参考 UsersWikiPostgreSQLPostGIS – PostGIS 如果Red Hat系统上有旧版本的PostgreSQL需要卸载 在较新的Red Hat版本&#xff0c;使用dnf包管理器卸载&#xff1a;sudo dnf remove postgresql-server postgresql 旧版本&#xff0c;使用yum包管理器卸载 sudo y…

本地部署DeepSeek + AnythingLLM 搭建高效安全的个人知识库

环境准备: 本地部署方案请参考博客:windows平台本地部署DeepSeek大模型+Open WebUI网页界面(可以离线使用)-CSDN博客 windows平台本地部署DeepSeek大模型+Chatbox界面(可以离线使用)-CSDN博客 根据本人电脑配置:windows11 + i9-13900HX+RTX4060+DDR5 5600 32G内存 确…