Hive-定时清理无用的临时表

embedded/2024/11/27 15:56:55/

背景:

        有一个临时库,大家平时开发过程中比较常用,这个库的表的生命周期没有得到很好的管理,日积月累导致无用表增多,所以跟运维提了个方案,定期清理。提出了一个比较简单的方案。

解决方案:

show u the code

表规范如下

表名称:temp_xxxx(邮箱前缀)_xxxxx(自由发挥,不建议太长)_expyyyyMMdd(过期日期20241126)

清理规则如下

  1. 不符合上述规范的表直接清理或者rename
  2. 超过表的过期时间的清理或者rename

实现方案:

方案一:

这个版本的属于最常规的思路,如果清理的无用表较多的时候可能性能会稍微低些。

#!/bin/bash# Hive 配置
HIVE_DB="cusc_tmp_tmp_test_bd"
BEELINE_CMD="beeline"
BEELINE_URL="jdbc:hive2://<hive_server_host>:<hive_server_port>"
BEELINE_USER="<your_username>"
BEELINE_PASSWORD="<your_password>"# 获取当前日期
CURRENT_DATE=$(date +%Y%m%d)# 获取所有表名
TABLES=$($BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "SHOW TABLES IN ${HIVE_DB};")# 正则表达式匹配表名格式
VALID_PATTERN="^temp_[^_]+_[^_]+_exp([0-9]{8})$"# 遍历所有表
for TABLE in $TABLES; doif [[ $TABLE =~ $VALID_PATTERN ]]; then# 提取过期日期EXP_DATE=${BASH_REMATCH[1]}# 检查是否过期if [[ $CURRENT_DATE -gt $EXP_DATE ]]; thenecho "Deleting expired table: ${TABLE}"$BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "DROP TABLE IF EXISTS ${HIVE_DB}.${TABLE};"fielse# 删除不符合规范的表echo "Deleting invalid table: ${TABLE}"$BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "DROP TABLE IF EXISTS ${HIVE_DB}.${TABLE};"fi
doneecho " cleanup completed."

ps:上面的方案我是用的是beeline是因为集群直接使用hive -e 出来的表名很不规整。条件允许的可以直接用hive -e 

对性能有要求的同学可能发现了,每次都要起一次beeline 客户端。效率堪忧。所以给出一个优化的方案。

方案二:

#!/bin/bash# Hive 配置
HIVE_DB="cusc_tmp_tmp_test_bd"
BEELINE_CMD="beeline"
BEELINE_URL="jdbc:hive2://<hive_server_host>:<hive_server_port>"
BEELINE_USER="<your_username>"
BEELINE_PASSWORD="<your_password>"# 获取当前日期
CURRENT_DATE=$(date +%Y%m%d)# 准备SQL脚本
SQL_SCRIPT="/tmp/cleanup_tables.sql"# 初始化SQL脚本
echo "USE ${HIVE_DB};" > "${SQL_SCRIPT}"# 获取所有表名
TABLES=$($BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "SHOW TABLES IN ${HIVE_DB};")# 正则表达式匹配表名格式
VALID_PATTERN="^temp_[^_]+_[^_]+_exp([0-9]{8})$"# 遍历所有表
for TABLE in $TABLES; doif [[ $TABLE =~ $VALID_PATTERN ]]; then# 提取过期日期EXP_DATE=${BASH_REMATCH[1]}# 检查是否过期if [[ $CURRENT_DATE -gt $EXP_DATE ]]; thenecho "DROP TABLE IF EXISTS ${TABLE};" >> "${SQL_SCRIPT}"echo "Marked for deletion: ${TABLE}"fielse# 删除不符合规范的表echo "DROP TABLE IF EXISTS ${TABLE};" >> "${SQL_SCRIPT}"echo "Marked for deletion (invalid name): ${TABLE}"fi
done# 执行SQL脚本
$BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -f "${SQL_SCRIPT}"# 清理临时SQL文件
rm -f "${SQL_SCRIPT}"echo "cleanup completed."
  1. 方案二把需要清理的表放到了一个文件里,然后直接一次性执行一个清理语句。减少了交互,提升了效率

总结:

方案比较简单粗暴,如果想要友好一些的,可以做rename处理,比如把表名加上trash,或者把每日待删除的表先发一个邮件给到开发的小伙伴,确认无误之后再最物理删除。具体情况根据团队的实际情况来定即可。


http://www.ppmy.cn/embedded/140939.html

相关文章

【Leetcode】3206.交替组1

题目描述&#xff1a; https://leetcode.cn/problems/alternating-groups-i/description/?envTypedaily-question&envId2024-11-26 题目示例&#xff1a; 解题思路 思路一&#xff1a; 1.如果color.size()小于等于2&#xff0c;则构不成环&#xff0c;直接返回结果…

数据结构--Map和Set

目录 一.二叉搜索树1.1 概念1.2 二叉搜索树的简单实现 二.Map2.1 概念2.2 Map常用方法2.3 Map使用注意点2.4 TreeMap和HashMap的区别2.5 HashMap底层知识点 三.Set3.1 概念3.2 Set常用方法3.3 Set使用注意点3.4 TreeSet与HashSet的区别 四.哈希表4.1 概念4.2 哈希冲突与避免4.3…

林业产品推荐:Spring Boot技术挑战

摘 要 网络技术和计算机技术发展至今&#xff0c;已经拥有了深厚的理论基础&#xff0c;并在现实中进行了充分运用&#xff0c;尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代&#xff0c;所以对于信息的宣传和管理就很关键。因此林业产品销售信…

数据结构之栈:从原理到实现

1. 什么是栈&#xff1f; 在数据结构中&#xff0c;栈&#xff08;Stack&#xff09;是一种非常基础的线性数据结构&#xff0c;它的特点是后进先出&#xff08;LIFO, Last In First Out&#xff09;。想象一个装盘子的架子&#xff0c;你只能从最上面拿盘子或放盘子&#xff…

【H2O2|全栈】JS进阶知识(十一)axios入门

目录 前言 开篇语 准备工作 获取 介绍 使用 结束语 前言 开篇语 本系列博客主要分享JavaScript的进阶语法知识&#xff0c;本期主要对axios进行基本的了解。 与基础部分的语法相比&#xff0c;ES6的语法进行了一些更加严谨的约束和优化&#xff0c;因此&#xff0c;在…

leetcode hot100【LeetCode 215.数组中的第K个最大元素】java实现

LeetCode 215.数组中的第K个最大元素 题目描述 给定一个整数数组 nums 和一个整数 k&#xff0c;请返回数组中第 k 个最大的元素。 请注意&#xff0c;要求排名是从大到小的&#xff0c;因此第 k 个最大元素是排序后的第 k 个元素。你需要设计一个高效的算法来解决这个问题。…

基础入门-Web应用架构搭建域名源码站库分离MVC模型解析受限对应路径

知识点&#xff1a; 1、基础入门-Web应用-域名上的技术要点 2、基础入门-Web应用-源码上的技术要点 3、基础入门-Web应用-数据上的技术要点 4、基础入门-Web应用-解析上的技术要点 5、基础入门-Web应用-平台上的技术要点 一、演示案例-域名差异-主站&分站&端口站&…

SpringBoot - 优雅的实现【账号登录错误次数的限制和锁定】

文章目录 Pre需求实现步骤简易实现1. 添加依赖2. 配置文件3. 自定义注解4. AOP切面5. 使用自定义注解&#xff1a;6. 测试 附总结 Pre SpringBoot - 优雅的实现【流控】 需求 需求描述&#xff1a; 登录错误次数限制&#xff1a;在用户登录时&#xff0c;记录每个账号的登录错…