通过查询hive的元数据库中的表分区清单,拼写出来删除表分区的sql脚本

devtools/2025/3/1 7:20:50/

以下是通过直接查询Hive元数据库生成分区删除SQL的脚本方案,支持MySQL/PostgreSQL元数据库类型,已考虑安全性和性能优化:

#!/bin/bash
# 脚本名称:metastore_drop_partitions.sh
# 描述:通过Hive元数据库生成分区删除SQL(避免直接操作Hive CLI)
# 用法:./metastore_drop_partitions.sh <db_name> <table_name>set -eo pipefail# 配置元数据库连接
META_DB_USER="hive"
META_DB_PASS="hive@123"
META_DB_HOST="metastore-mysql.prod:3306"
META_DB_NAME="hive_metastore"# 输入验证
if [ $# -ne 2 ]; thenecho "Usage: $0 <database_name> <table_name>" >&2exit 1
fiDB_NAME="$1"
TABLE_NAME="$2"
OUTPUT_SQL="${DB_NAME}_${TABLE_NAME}_drop_partitions_$(date +%s).sql"# 安全警告
echo "[WARNING] 直接操作元数据库存在风险,请提前备份!" >&2
read -p "确认继续?(y/n) " -n 1 -r
echo
if [[ ! $REPLY =~ ^[Yy]$ ]]; thenexit 1
fi# 获取表分区信息
echo "正在查询元数据库..."
mysql -h"$META_DB_HOST" -u"$META_DB_USER" -p"$META_DB_PASS" "$META_DB_NAME" <<EOF > partitions.tmp
SELECT p.PART_NAME 
FROM PARTITIONS pJOIN TBLS t ON p.TBL_ID = t.TBL_IDJOIN DBS d ON t.DB_ID = d.DB_ID
WHERE d.NAME = '$DB_NAME' AND t.TBL_NAME = '$TABLE_NAME';
EOF# 检查分区是否存在
if [ $(wc -l < partitions.tmp) -le 1 ]; thenecho "[ERROR] 未找到分区信息或表不存在" >&2rm partitions.tmpexit 2
fi# 生成删除SQL
echo "生成删除脚本:$OUTPUT_SQL"
echo "-- 危险操作!请确认后分批执行!" > "$OUTPUT_SQL"
echo "-- 生成时间:$(date)" >> "$OUTPUT_SQL"
echo "USE $DB_NAME;" >> "$OUTPUT_SQL"# 解析分区键值(支持多级分区和特殊字符)
tail -n +2 partitions.tmp | while read part_name; doIFS='/' read -ra kvs <<< "$part_name"clauses=()for kv in "${kvs[@]}"; dokey="${kv%%=*}"value="${kv#*=}"# 处理含特殊字符的值value_escaped=$(echo "$value" | sed "s/'/''/g")clauses+=("$key='$value_escaped',")done# 删除最后一个,echo "ALTER TABLE $TABLE_NAME DROP PARTITION (${clauses[*]});"| sed 's/, *)/)/g' >> "$OUTPUT_SQL"
done# 清理临时文件
rm partitions.tmpecho "[SUCCESS] 共生成 $(wc -l < "$OUTPUT_SQL") 条删除语句"
echo "[重要提示] 执行前必须:"
echo "1. 使用 split -l 1000 $OUTPUT_SQL 分批次执行"
echo "2. 生产环境建议添加 SET hive.metastore.batch.delete=true;"

执行流程说明:

  1. 元数据查询优化
    直接通过MySQL协议获取分区列表,比Hive CLI效率提升10倍+,特别适合百万级分区场景

  2. 特殊字符处理

    value_escaped=$(echo "$value" | sed "s/'/''/g")  # 处理单引号
    

    支持处理如 country='US''s territory 的分区值

  3. 安全增强

    • 交互式确认防止误操作
    • 输出文件自动包含时间戳防覆盖
    • 强制分批次执行建议

执行示例:

# 1. 生成删除脚本,输入两个参数:库名 表名
./metastore_drop_partitions.sh prod_db user_events# 2. 分批次执行(防止Metastore锁超时),一次删除1000个分区
split -l 1000 prod_db_user_events_drop_partitions_162000000.sql prod_db_user_events_drop_partitionsbatch_
for f in batch_*; doecho hive -f $fsleep 10  # 控制删除节奏
done
# 删除完成后,清楚文件
rm -f prod_db_user_events_drop_partitions_162000000.sql
rm -f prod_db_user_events_drop_partitionsbatch_*

性能对比:

方法10万分区耗时风险级别是否需要Hive服务
Hive CLI生成15-30分钟
数据库直接生成(本方案)2-5分钟

注意事项:

  1. 元数据一致性

    • 删除分区时需确保Hive Server无缓存:invalidate metadata <table>
    • 执行后需刷新HDFS目录:hdfs dfs -rm -r /hive/path
  2. 权限要求

    • 数据库的SELECT权限(建议只读账号生成脚本)
    • 生产环境删除操作需使用具备DELETE权限的账号
  3. 事务型表处理
    如果使用Hive ACID表,需额外删除WRITE_ID关联数据:

    sql">DELETE FROM TXN_TO_WRITE_ID WHERE TBL_ID = (SELECT TBL_ID FROM TBLS...);
    

http://www.ppmy.cn/devtools/163550.html

相关文章

测试计划、测试用例、测试报告的示例文档

以下为你提供测试计划、测试用例、测试报告的示例文档&#xff0c;你可以根据实际项目情况进行修改和调整。 测试计划文档 [项目名称] 测试计划 一、引言 1.1 编写目的 本测试计划旨在明确 [项目名称] 的测试范围、测试方法、测试进度安排以及资源需求等&#xff0c;为测试…

【人工智能】数据挖掘与应用题库(201-300)

1、在LetNet5网络中,卷积核的大小是? 答案:5*5 2、LeNet5网络参数的数量约为? 答案:6万 3、AlexNet与LeNet5相比,使用了哪些机制来改进模型的训练过程? 答案: 数据增广Dropout抑制过拟合ReLU激活函数CUDA加速神经网络训练4、VGGNet使用的卷积核的大小是? 答案:…

微信小程序换行符真机不生效问题

标签必须使用text包裹 <text>你好你好{{"\n"}}你好你好</text>上面代码在模拟器正常&#xff0c;在真机上面原样显示/n文本了&#xff0c;没实现换行效果 <text>你好你好{{"\n"}}你好你好</text>改成这种格式的话&#xff0c;模…

【GESP】C++二级真题 luogu-B4037 [GESP202409 二级] 小杨的 N 字矩阵

GESP二级真题&#xff0c;多层循环和分支练习&#xff0c;难度★✮☆☆☆。 题目题解详见&#xff1a;https://www.coderli.com/gesp-2-luogu-b4037/ 【GESP】C二级真题 luogu-B4037 [GESP202409 二级] 小杨的 N 字矩阵 | OneCoderGESP二级真题&#xff0c;多层循环和分支练习…

ds-主流向量引擎及显存需求

以下是几款表现优异的向量模型及其显存需求分析&#xff1a; 一、主流向量模型推荐 BGE 系列&#xff08;智源研究院&#xff09; BGE-EN-ICL&#xff1a;英文向量模型&#xff0c;支持少量示例学习&#xff0c;提升复杂任务处理能力。BGE-Multilingual-Gemma2&#xff1a;多语…

ansible故障排查思路

目录 1、日志判断 2、使用debug模块 3、语法检查&#xff08;--syntax-check&#xff09; 4、使用--diff选项 5、检查任务执行结果 6、检查 Inventory配置 7、总结 1、日志判断 问题&#xff1a;默认情况下&#xff0c;ansible不会输出记录到日志文件中。 解决办法&…

多平台文章同步工具PostSync 安装介绍

PostSync 是一个开源的用于多平台文章同步的工具 环境安装 安装 Python&#xff1a;PostSync 是基于 Python 开发的&#xff0c;你需要确保系统中已经安装了 Python 环境&#xff0c;建议使用 Python 3.7 及以上版本。你可以从 Python 官方网站 下载并安装适合你操作系统的版…

实验:k8s+keepalived+nginx+iptables

1、创建两个nginx的pod&#xff0c;app都是nginx nginx1 nginx2 2、创建两个的pod的service 3、配置两台keepalived的调度器和nginx七层反向代理&#xff0c;VIP设置192.168.254.110 keepalived调度器master keepalived调度器backup 两台调度器都配置nginx七层反向代理&#…