Airflow和PySPARK实现带多组参数和标签的Amazon Redshift数据仓库批量数据导出程序

设计一个基于多个带标签SQL模板作为配置文件和多组参数的PySPARK代码程序，实现根据不同的输入参数，用Airflow进行调度，自动批量地将Amazon Redshift数据仓库的数据导出为Parquet、CSV和Excel文件到S3上，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。PySpark程序需要异常处理，输出带时间戳和每个运行批次和每个导出文件作业运行状态的日志文件，每天单独一个带日期的和.log扩展名日志文件，放在logs子目录中，参数全部设置在json配置文件中。

PySpark解决方案，包含代码结构、配置文件和日志处理：

注意事项：

确保Spark集群有访问Redshift和S3的权限
根据实际环境调整Redshift JDBC驱动版本
测试不同文件格式的导出需求
监控S3临时目录的存储使用情况
定期清理日志文件和临时数据
根据数据量调整Spark资源配置
项目结构

redshift_exporter/
├── config/
│   └── config.json
├── sql_templates/
│   └── sales_report.sql
├── logs/
├── jobs/
│   └── redshift_exporter.py
└── airflow/└── dags/└── redshift_export_dag.py

config.json 示例

{"redshift_conn": {"url": "jdbc:redshift://cluster:5439/db","user": "user","password": "password","tempdir": "s3a://temp-bucket/redshift_temp"},"s3_output": "s3a://output-bucket/reports","tasks": [{"label": "sales_report","sql_template": "sql_templates/sales_report.sql","parameters": ["${date}", "region1"],"formats": ["parquet", "csv", "xlsx"]}]
}

PySpark程序 (redshift_exporter.py)

python">import json
import logging
import os
import sys
from datetime import datetime
from pyspark.sql import SparkSessionclass RedshiftExporter:def __init__(self, config_path):self.spark = SparkSession.builder \.appName("RedshiftExporter") \.config("spark.jars.packages", "com.amazon.redshift:redshift-jdbc42:2.1.0.9,org.apache.hadoop:hadoop-aws:3.3.1") \.getOrCreate()with open(config_path) as f:self.config = json.load(f)self.setup_logging()def setup_logging(self):log_dir = "logs"if not os.path.exists(log_dir):os.makedirs(log_dir)log_file = f"{log_dir}/{datetime.now().strftime('%Y-%m-%d')}.log"logging.basicConfig(level=logging.INFO,format='%(asctime)s - %(levelname)s - %(message)s',handlers=[logging.FileHandler(log_file),logging.StreamHandler()])self.logger = logging.getLogger(__name__)def read_sql_template(self, template_path):try:with open(template_path) as f:return f.read()except Exception as e:self.logger.error(f"Error reading SQL template: {str(e)}")raisedef export_data(self, df, output_path, format_type):try:writer = df.write.mode("overwrite")if format_type == "parquet":writer.parquet(f"{output_path}.parquet")elif format_type == "csv":writer.option("header", "true").csv(f"{output_path}.csv")elif format_type == "xlsx":df.write.format("com.crealytics.spark.excel") \.option("header", "true") \.mode("overwrite") \.save(f"{output_path}.xlsx")self.logger.info(f"Successfully exported {format_type} to {output_path}")except Exception as e:self.logger.error(f"Export failed for {format_type}: {str(e)}")raisedef process_task(self, task, params):try:sql = self.read_sql_template(task["sql_template"])formatted_sql = sql.replace("${date}", params[0])df = self.spark.read \.format("com.databricks.spark.redshift") \.option("url", self.config["redshift_conn"]["url"]) \.option("query", formatted_sql) \.option("user", self.config["redshift_conn"]["user"]) \.option("password", self.config["redshift_conn"]["password"]) \.option("tempdir", self.config["redshift_conn"]["tempdir"]) \.load()filename = f"{task['label']}_{'_'.join(params)}"output_base = f"{self.config['s3_output']}/{filename}"for fmt in task["formats"]:self.export_data(df, output_base, fmt)except Exception as e:self.logger.error(f"Task {task['label']} failed: {str(e)}")raisedef run(self, parameters):try:for task in self.config["tasks"]:self.logger.info(f"Processing task: {task['label']}")self.process_task(task, parameters)finally:self.spark.stop()if __name__ == "__main__":if len(sys.argv) < 2:print("Usage: redshift_exporter.py <config_path> <parameters>")sys.exit(1)config_path = sys.argv[1]parameters = sys.argv[2].split("_") if len(sys.argv) > 2 else []exporter = RedshiftExporter(config_path)exporter.run(parameters)

Airflow DAG 示例 (redshift_export_dag.py)

python">from datetime import datetime
from airflow import DAG
from airflow.operators.bash_operator import BashOperatordefault_args = {'owner': 'data_team','start_date': datetime(2023, 1, 1),'retries': 1
}with DAG('redshift_export',default_args=default_args,schedule_interval='@daily',catchup=False) as dag:export_task = BashOperator(task_id='run_redshift_export',bash_command='spark-submit --packages com.amazon.redshift:redshift-jdbc42:2.1.0.9,org.apache.hadoop:hadoop-aws:3.3.1,com.crealytics:spark-excel_2.12:3.3.1_0.18.5 /path/to/jobs/redshift_exporter.py /path/to/config/config.json "{{ ds_nodash }}_region1"')

实现说明

配置文件管理：使用JSON配置文件管理Redshift连接参数、输出位置和任务配置
参数化处理：支持动态参数替换SQL模板中的变量
多格式导出：支持Parquet、CSV和Excel格式导出
日志记录：每天生成独立的日志文件，包含详细的时间戳和操作状态
异常处理：完善的错误捕获和日志记录机制
Spark优化：使用Redshift的Spark连接器进行高效数据传输
文件覆盖：使用Spark的overwrite模式处理已存在文件
依赖管理：通过–packages参数管理Spark依赖

运行方式：

spark-submit --packages com.amazon.redshift:redshift-jdbc42:2.1.0.9,org.apache.hadoop:hadoop-aws:3.3.1,com.crealytics:spark-excel_2.12:3.3.1_0.18.5 jobs/redshift_exporter.py config/config.json "20231001_region1"

Airflow和PySPARK实现带多组参数和标签的Amazon Redshift数据仓库批量数据导出程序

相关文章

密码学（哈希函数）

确保初始化和销毁操作的线程安全-初始化和销毁

9道Dubbo面试题

【html期末作业网页设计】

[arXiv 2025]BP-GPT: Auditory Neural Decoding Using fMRI-prompted LLM

基于Matlab的语音识别系统设计

【Hudi-SQL DDL创建表语法】

软考中级-数据库-3.2 数据结构-数组和矩阵