postgresql|数据库|利用sqlparse和psycopg2库批量按顺序执行SQL语句(psyconpg2新优化版本)

embedded/2025/1/15 15:09:50/

一、

旧版批量执行SQL脚本的python文件缺点,优点,以及更新内容

书接上回,sql>postgresql|数据库开发|python的psycopg2库按指定顺序批量执行SQL文件(可离线化部署)_python sql psycopg2-CSDN博客

这个python脚本写了很久了,最近开始实际使用,发现了很多问题,问题主要集中在以下几点:

1、

SQL语句解析不太标准,遇到;分号就也当SQL语句执行,导致很多不必要的错误,并且很多时候不能有效区分多行SQL,因此,本文计划使用sqlparse库来做更准确的SQL语句解析

2、

批量的SQL文件跑完后,并没有一个比较详细的总结报告,遇到问题不太好排查,因此,本文对此做了优化,当一个目录内的SQL文件都执行完毕后,给一个相对详细的报告

确保即使某些 SQL 文件执行失败,程序也会继续尝试执行其余的文件,并最终给出一个详细的执行报告,帮助用户了解哪些文件和语句被执行以及哪些文件遇到了问题。这样,用户不仅能知道哪些文件未能成功处理,还能清楚地看到哪些文件及其内部的语句已经成功应用到了数据库中。

3、

SQL文件排序使用正则表达式处理,以改善SQL文件排序有时候不正确的问题

4、

所有的指定目录下的SQL文件都执行,但,执行失败的SQL文件仍留在原文件夹,需要将失败的SQL文件拿出来,手动处理有问题的SQL文件

5、

SQL语句执行输出太多,成功的SQL语句不应该输出到控制台,导致脚本执行情况并不是一目了然,因此,对脚本输出进行优化,以方便SQL脚本的调试

优点:

1、

以SQL文件为单位,每一个SQL文件内的SQL语句要么全部执行成功,如果中间有任何错误就回滚,对于数据库的数据安全是有一定的保障的

2、

该工具执行迅速,效率非常高,但对于锁表的情况,现在暂时没有什么想法

二、

优化后的python脚本源码

import os
import re
import sys
import json
import shutil
import psycopg2
from psycopg2 import sql, OperationalError, ProgrammingError
import sqlparsedef print_colored_text(text, color_code):"""打印带有颜色的文本"""print(f"\033[{color_code}m{text}\033[0m")# 定义颜色代码
COLORS = {'BLACK': 30,'RED': 31,'GREEN': 32,'YELLOW': 33,'BLUE': 34,'MAGENTA': 35,'CYAN': 36,'WHITE': 37
}def find_sql_files(path):"""查找指定路径下的所有 .sql 文件,并按文件名中第一个出现的数字升序排序返回列表"""sql_files = [os.path.join(root, file)for root, _, files in os.walk(path)for file in filesif file.endswith('.sql')]def extract_first_number(filename):"""从文件名中提取第一个出现的数字序列并转换为整数,用于排序"""match = re.search(r'\d+', os.path.basename(filename))return int(match.group()) if match else float('inf')  # 如果没有匹配到数字,则排到最后# 使用 sorted 函数并指定 key 参数来实现升序排序,仅依据第一个数字sorted_sql_files = sorted(sql_files, key=extract_first_number)return sorted_sql_files
def execute_sql_file(db_config, sql_file_path, script_dir):"""执行指定的 SQL 文件,并在遇到错误时移动文件"""conn = Nonecursor = Nonesuccessful_statements = []  # 新增: 记录成功的SQL语句try:conn = psycopg2.connect(**db_config)cursor = conn.cursor()with open(sql_file_path, 'r', encoding='utf-8') as file:parsed_statements = sqlparse.split(file.read())for raw_stmt in parsed_statements:stmt = raw_stmt.strip()if not stmt:  # 忽略空语句continuestatements = sqlparse.parse(stmt)for statement in statements:if statement.tokens:  # 确保有非空的SQL语句stmt_str = str(statement).strip(';').strip()if stmt_str:  # 忽略空语句# print(stmt_str)# print_colored_text('<<<<<<<=======<<<<<++++++++<<<<<<上面这条语句将要执行了===----========*****', COLORS['CYAN'])try:cursor.execute(stmt_str)successful_statements.append(stmt_str)  # 添加到成功语句列表#print_colored_text('执行成功!', COLORS['GREEN'])except (Exception, psycopg2.DatabaseError) as e:print(f"执行失败的语句是:")print(f"{stmt_str}")print("=========这是第一个分隔符===================")print("报错详细信息是:")print(e)print("===========这是第二个分隔符===================")print(f"执行的文件名称是:")print(f"{sql_file_path}")conn.rollback()  # 回滚事务move_failed_file(sql_file_path, script_dir)return False, successful_statementsconn.commit()print_colored_text(f"Executed SQL file successfully: {sql_file_path}", COLORS['RED'])return True, successful_statementsexcept (OperationalError, ProgrammingError) as error:print(f"Database error occurred while executing SQL file {sql_file_path}: {error}")if conn:conn.rollback()return False, successful_statementsfinally:if cursor:cursor.close()if conn:conn.close()def move_failed_file(src, dst_dir):"""将失败的SQL文件移动到指定的目标目录"""try:os.makedirs(dst_dir, exist_ok=True)dst = os.path.join(dst_dir, os.path.basename(src))print(f"Moving failed SQL file to {dst}")shutil.move(src, dst)except Exception as e:print(f"Failed to move the file {src}: {e}")def main():if len(sys.argv) != 3:print("Usage: python script.py <user> <path_to_search>")sys.exit(1)user = sys.argv[1]search_path = sys.argv[2]script_dir = os.path.dirname(os.path.abspath(__file__))  # 获取脚本所在目录try:with open('test.json', 'r', encoding='utf-8') as f:params = json.load(f)db_config = params.get('db_config', {})required_keys = ['dbname', 'user', 'password', 'host', 'port']if not all(key in db_config for key in required_keys):print("Error: Missing required database configuration in test.json")sys.exit(1)db_config['user'] = userexcept FileNotFoundError:print("Error: test.json not found")sys.exit(1)except json.JSONDecodeError:print("Error: test.json is not a valid JSON file")sys.exit(1)sql_files = list(find_sql_files(search_path))print(f"Found {len(sql_files)} SQL files: {sql_files}")print_colored_text(f'|||||二十秒后开始执行{sql_files},以打印出来的顺序依次执行SQL文件|||||||||||', COLORS['MAGENTA'])failed_files = []executed_statements = []successful_files = []  # 新增: 记录成功的SQL文件if sql_files:for sql_file in sql_files:print_colored_text(f'这个文件将要执行: {sql_file}\n\n', COLORS['YELLOW'])success, statements = execute_sql_file(db_config, sql_file, script_dir)if not success:print(f"Failed to execute SQL file: {sql_file}. Continuing with the next file...")failed_files.append(sql_file)else:executed_statements.extend(statements)successful_files.append(sql_file)  # 添加到成功文件列表# 打印总结信息if failed_files:print_colored_text("\nThe following SQL files failed to execute:", COLORS['RED'])for failed_file in failed_files:print(f"- {failed_file}")else:print_colored_text("\nAll SQL files executed successfully.", COLORS['GREEN'])
#        print_colored_text("\nThe following SQL statements were executed successfully:", COLORS['GREEN'])
#        for stmt in executed_statements:
#            print(f"- {stmt}")print_colored_text("\nThe following SQL files were executed successfully:", COLORS['GREEN'])for successful_file in successful_files:print(f"- {successful_file}")else:print("No SQL files found in the specified path.")if __name__ == "__main__":main()

该python脚本依赖于python3环境,libpq.so,pyscopg库,sqlparse库,这些库什么的都可以离线安装,相关文件都已放到百度网盘内了

通过网盘分享的文件:批量执行SQL语句项目
链接: https://pan.baidu.com/s/1zCAL78hp2-92NdjIHCjM0w?pwd=gkw1 提取码: gkw1 

 python3.zip 文件里都是rpm包,适用于centos7,解压后,怎么安装就不在这多说了
其中,里面的sqlpaser.tar.gz 需要解压到/usr/local/lib/python3.6目录下,如果没有python3.6目录,建立即可

psycopg2.gz这个文件里的内容解压到/usr/lib64/python3.6目录下

解压完毕后,需要执行python3 -V 命令,以激活sqlparse库

最终目录如下所示即可:

[root@centos7 ~]# ls /usr/lib64/python3.6/site-packages/
psycopg2  psycopg2-2.8.6-py3.6.egg-info  __pycache__  README.txt
[root@centos7 ~]# ls /usr/local/lib/python3.6/site-packages/
sqlparse  sqlparse-0.4.4.dist-info

三、

重点代码解析

1、

代码编程结构

本次代码编写仍然是延续上个版本,主要功能封装为方法,在main方法统一集中调用

主要是一个main主方法+4个功能方法,分别是控制台颜色渲染方法,SQL文件搜寻方法,SQL文件调用psyconpg2,sqlparse库逐行执行SQL语句方法,移动执行失败SQL文件到脚本当前目录方法,整体调用main方法

2、

控制台颜色渲染方法

该方法主要是使用了字典,形参调用形式,例如该方法的调用:

print_colored_text(f"Executed SQL file successfully: {sql_file_path}", COLORS['RED'])

没什么好说的,主要就是字典的应用是难点 

3、

SQL文件搜寻方法

def find_sql_files(path):"""查找指定路径下的所有 .sql 文件,并按文件名中第一个出现的数字升序排序返回列表"""sql_files = [os.path.join(root, file)for root, _, files in os.walk(path)for file in filesif file.endswith('.sql')]def extract_first_number(filename):"""从文件名中提取第一个出现的数字序列并转换为整数,用于排序"""match = re.search(r'\d+', os.path.basename(filename))return int(match.group()) if match else float('inf')  # 如果没有匹配到数字,则排到最后# 使用 sorted 函数并指定 key 参数来实现升序排序,仅依据第一个数字sorted_sql_files = sorted(sql_files, key=extract_first_number)return sorted_sql_files

这一段代码难点主要在方法嵌套,首先迭代寻找指定的路径下所有的SQL文件,然后通过子方法,调用正则表达式重新排序,主要是以数字开始的文件

这里需要注意,搜寻到的SQL文件是返回一个列表

4、

SQL文件调用psyconpg2,sqlparse库逐行执行SQL语句方法

该方法主要是业务逻辑实现,主要逻辑是以单个SQL文件为整体事务,如果某个SQL文件有错误,事务回滚,并调用移动执行失败SQL文件到脚本当前目录方法;如果该SQL文件顺利执行完成,则提交事务

这样做的目的是保护数据库,避免不必要的数据混乱

无论如何,当一个SQL文件执行完毕,都会将数据库连接关闭,游标关闭

编写的时候考虑了一下,还是需要捕获错误并将详细错误信息打印,并收集失败的SQL文件和成功的SQL文件,在main方法内将要调用这两个列表,list

5、

移动执行失败SQL文件到脚本当前目录方法

该方法没什么特别的,主要是调用此方法的形式,在main方法内,这里比较绕,当时编写的时候考虑了很久

6、

main方法

整体逻辑封装都在此方法内

    user = sys.argv[1]search_path = sys.argv[2]script_dir = os.path.dirname(os.path.abspath(__file__))  # 获取脚本所在目录

__file__ 是一个非常有用的内置变量,它帮助你在编写脚本时能够动态地确定文件的位置,而不需要硬编码路径。这对于提高代码的可移植性和维护性非常有帮助。如果你在开发过程中遇到需要根据脚本位置来定位其他文件的情况,说实话这个变量我是差点给忘记掉的

那么,为什么要有user这个变量呢?考虑到很多时候并不是有高权限的数据库账号

其它的就没什么好说的了

四、

数据库信息文件json

有需要实践的同学按实际情况填写此json文件

{"db_config": {"dbname": "postgres","user": "postgres","password": "xxxxx","host": "192.168.xxx.xx","port": "1543"}
}

四、

执行方式和执行结果示例

[root@centos7 ~]# python3 test7.py postgres ./
Found 2 SQL files: ['./12323.sql', './33333.sql']
|||||二十秒后开始执行['./12323.sql', './33333.sql'],以打印出来的顺序依次执行SQL文件|||||||||||
这个文件将要执行: ./12323.sql执行失败的语句是:
-- 插入部门数据 ;
INSERT INTO 
dept VALUES (10, '战略部', '咸阳')
=========这是第一个分隔符===================
报错详细信息是:
duplicate key value violates unique constraint "dept_pkey"
DETAIL:  Key (deptno)=(10) already exists.===========这是第二个分隔符===================
执行的文件名称是:
./12323.sql
Moving failed SQL file to /root/12323.sql
Failed to execute SQL file: ./12323.sql. Continuing with the next file...
这个文件将要执行: ./33333.sql执行失败的语句是:
-- 插入部门数据 ;
INSERT INTO 
dept VALUES (10, '战略部', '咸阳')
=========这是第一个分隔符===================
报错详细信息是:
duplicate key value violates unique constraint "dept_pkey"
DETAIL:  Key (deptno)=(10) already exists.===========这是第二个分隔符===================
执行的文件名称是:
./33333.sql
Moving failed SQL file to /root/33333.sql
Failed to execute SQL file: ./33333.sql. Continuing with the next file...The following SQL files failed to execute:
- ./12323.sql
- ./33333.sqlThe following SQL files were executed successfully:

全失败的:

有失败有成功的情况:

[root@centos7 ~]# python3 test7.py postgres ./
Found 2 SQL files: ['./12323.sql', './33333.sql']
|||||二十秒后开始执行['./12323.sql', './33333.sql'],以打印出来的顺序依次执行SQL文件|||||||||||
这个文件将要执行: ./12323.sqlExecuted SQL file successfully: ./12323.sql
这个文件将要执行: ./33333.sql执行失败的语句是:
-- 插入部门数据 ;
INSERT INTO 
dept VALUES (10, '战略部', '咸阳')
=========这是第一个分隔符===================
报错详细信息是:
duplicate key value violates unique constraint "dept_pkey"
DETAIL:  Key (deptno)=(10) already exists.===========这是第二个分隔符===================
执行的文件名称是:
./33333.sql
Moving failed SQL file to /root/33333.sql
Failed to execute SQL file: ./33333.sql. Continuing with the next file...The following SQL files failed to execute:
- ./33333.sqlThe following SQL files were executed successfully:
- ./12323.sql

全部成功的情况:

[root@centos7 ~]# python3 test7.py postgres ./
Found 1 SQL files: ['./12323.sql']
|||||二十秒后开始执行['./12323.sql'],以打印出来的顺序依次执行SQL文件|||||||||||
这个文件将要执行: ./12323.sql


Executed SQL file successfully: ./12323.sql

All SQL files executed successfully.

The following SQL files were executed successfully:
- ./12323.sql

 

🆗,这个SQL文件批量执行的小工具就介绍到这了,欢迎各位大拿指正错误!!!!!


http://www.ppmy.cn/embedded/153801.html

相关文章

stacking中如何把基础学习器设置为ann神经网络

在Stacking集成学习方法中,将人工神经网络(ANN)作为基础学习器是可行的,以下是一般的步骤: 一、数据准备 数据划分 首先,将原始数据集划分为训练集和测试集。例如,对于一个包含 n n n 个样本的数据集 D =

【traefik】forwadAuth中间件跨namespace请求的问题

前情提要 - fowardAuth鉴权中间件的使用&#xff1a; 【traefik】使用forwardAuth中间件做网关层的全局鉴权 1. 问题 我的 traefik-ingress-controller 所在 namespace: traefik 业务服务所在 namespace: apps 路由与 forwardAuth 中间件配置如下&#xff1a; # 路由 apiV…

Apache Hop从入门到精通 第二课 Apache Hop 核心概念/术语

1、apache hop核心概念思维导图 虽然apache hop是kettle的一个分支&#xff0c;但是它的概念和kettle还是有一些区别的&#xff0c;下图是我根据官方文档梳理的appache hop的核心概念思维导图。 2、Tools&#xff08;工具&#xff09; 1&#xff09;Hop Conf Hop Conf 是一个…

取消项目的版本控制

ls -a 如果看到 .git 目录&#xff0c;说明这是一个独立的 Git 仓库&#xff08;或者是父仓库中的一个“子仓库”&#xff09;。 rm -rf .git 删除这个 .git 文件夹后&#xff0c;文件夹便会变成一个普通文件夹&#xff0c;不再包含 Git 版本控制信息。

ASP.NET Core的部署、维护、日志记录和错误处理

一、日志记录(Logging) 1.1 日志记录的概念 日志记录是一种记录系统运行状态、活动和事件的重要机制。在软件开发和系统管理中&#xff0c;日志记录扮演着关键角色&#xff0c;用于追踪应用程序的执行过程、监视系统的健康状况、诊断问题和安全审计等。在ASP.NET Core等现代W…

三只松鼠携手爱零食,社区零售新高峰拔地而起

合纵连横&#xff0c;这是当前零售行业发展的一个主旋律。从商超之王胖东来的全国调改&#xff0c;到社区零售正在进行的渠道变革&#xff0c;竞争的激烈和商业模式的升级令人目不暇接。 量贩零食赛道在过去一年就是如此&#xff0c;有杀伐&#xff0c;有并购&#xff0c;刀光…

《探秘开源多模态神经网络模型:AI 新时代的万能钥匙》

《探秘开源多模态神经网络模型&#xff1a;AI 新时代的万能钥匙》 一、多模态模型的崛起之路&#xff08;一&#xff09;从单一到多元&#xff1a;模态的融合演进&#xff08;二&#xff09;关键技术突破&#xff1a;解锁多模态潜能 二、开源多模态模型深度剖析&#xff08;一&…

内网穿透的应用-Ubuntu本地Docker部署Leantime项目管理工具随时随地在线管理项目

文章目录 前言1.关于Leantime2.本地部署Leantime3.Leantime简单实用4.安装内网穿透5.配置Leantime公网地址6. 配置固定公网地址 前言 本文主要介绍如何在本地Linux系统使用Docker部署Leantime&#xff0c;并结合cpolar内网穿透工具轻松实现随时随地查看浏览器页面&#xff0c;…