基于PySpark 使用线性回归、随机森林以及模型融合实现天气预测

news/2024/12/4 16:33:42/

基于PySpark 实现天气预测与模型集成

在大数据分析与机器学习领域,Spark 提供了强大的计算能力和灵活的扩展性。本文将介绍如何利用 PySpark 完成以下任务:

1、数据预处理:清洗和编码天气数据。
2、特征工程:合并数值和分类特征。
3、模型训练与评估:构建线性回归随机森林模型。
4、模型集成:通过投票机制提升预测准确性。
以下是完整的代码和每一步的实现细节。

一、数据预处理

  1. 读取与清洗数据
    我们使用 weatherAUS.csv 数据集,其中包含与澳大利亚各地天气相关的特征,例如温度、降雨量、湿度等。预处理包括:

将缺失值替换为 None。
删除含有缺失值的行。

def get_prepared_data():# 创建Spark会话spark = SparkSession.builder \.appName("WeatherPrediction") \.master("local[*]") \.getOrCreate()# 读取CSV数据df = spark.read.csv("weatherAUS.csv", header=True, inferSchema=True)df = df.select([when(col(c) == 'NA', None).otherwise(col(c)).alias(c) for c in df.columns])df = df.dropna()# 打印数据摘要numeric_cols = [...]  # 数值列列表df.describe(numeric_cols).show()return df

在这里插入图片描述

  1. 编码分类变量
    分类特征通过 StringIndexer 和 OneHotEncoder 转换为数值表示,用于后续机器学习模型的训练。

使用 StringIndexer 进行编码

categorical_cols = ['Location', 'WindGustDir', 'WindDir9am', 'WindDir3pm', 'RainToday']
indexers = [StringIndexer(inputCol=col_name, outputCol=col_name + "_index") for col_name in categorical_cols]

使用 OneHotEncoder 转换为独热编码

encoders = [OneHotEncoder(inputCol=col_name + "_index", outputCol=col_name + "_onehot") for col_name in categorical_cols]

在这里插入图片描述

二、特征工程

所有数值和独热编码特征通过 VectorAssembler 合并为一个特征向量列 features,以供模型使用。

feature_cols = numeric_cols + [col_name + "_onehot" for col_name in categorical_cols]
assembler = VectorAssembler(inputCols=feature_cols, outputCol="features")
df = assembler.transform(df)

在这里插入图片描述

三、模型训练与评估

  1. 线性回归模型
    线性回归用于预测天气,目标是 RainTomorrow 是否下雨(0或1)。我们使用 RegressionEvaluator 计算模型的均方根误差 (RMSE)。
def liner_model_train(df):lr = LinearRegression(labelCol="RainTomorrow_index", featuresCol="features")train_df, test_df = df.randomSplit([0.8, 0.2], seed=1234)lr_model = lr.fit(train_df)predictions = lr_model.transform(test_df)rmse = RegressionEvaluator(labelCol="RainTomorrow_index", metricName="rmse").evaluate(predictions)print(f"线性回归 RMSE: {rmse:.4f}")return predictions

在这里插入图片描述

  1. 随机森林模型
    随机森林是一种强大的分类模型,可处理复杂的非线性关系。我们使用 BinaryClassificationEvaluator 评估其准确率。
def random_forest_train(df):rf = RandomForestClassifier(labelCol="RainTomorrow_index", featuresCol="features", numTrees=100)train_df, test_df = df.randomSplit([0.8, 0.2], seed=1234)model = rf.fit(train_df)predictions = model.transform(test_df)accuracy = BinaryClassificationEvaluator(labelCol="RainTomorrow_index").evaluate(predictions)print(f"随机森林 准确率: {accuracy:.4f}")return predictions

在这里插入图片描述

四、模型集成与投票

通过结合线性回归随机森林的预测结果,我们使用投票机制提升模型的总体表现。

def model_voting(df):rf_predictions = random_forest_train(df)lr_predictions = liner_model_train(df)# 投票机制df_predictions = lr_predictions.alias("lr").join(rf_predictions.alias("rf"), on="id", how="inner") \.withColumn("final_prediction",when((col("lr_prediction") >= 0.5) & (col("rf_prediction") == 1), 1).when((col("lr_prediction") < 0.5) & (col("rf_prediction") == 0), 0).otherwise(col("rf_prediction")))# 计算准确率correct_predictions = df_predictions.filter(col("final_prediction") == col("RainTomorrow_index")).count()total_predictions = df_predictions.count()accuracy = correct_predictions / total_predictionsprint(f"模型集成准确率: {accuracy:.4f}")

在这里插入图片描述

五、结果与总结

随机森林模型比线性回归模型表现更好的原因可以归结为以下几点:

1、随机森林能捕捉复杂的非线性关系和特征交互,而线性回归仅限于线性关系。
2、随机森林对噪声和异常值更加鲁棒,线性回归受离群值影响较大。
3、随机森林通过集成多棵决策树,降低了偏差和方差,同时提升了预测的准确性和鲁棒性。

因此,在像气象预测这样具有复杂非线性关系的数据集上,随机森林是更合适的选择。

六、完整代码与实现

完整代码可见本文顶部,可根据需求调整相关参数,并扩展到更复杂的天气预测任务中。通过 Spark 的强大并行计算能力,我们可以快速处理海量数据并训练复杂模型,为生产环境提供支持。


http://www.ppmy.cn/news/1552323.html

相关文章

数据结构题库9

第十章 内部排序 一、选择题 1、若需要在O(nlog2n)的时间内完成对数组的排序&#xff0c;且要求排序是稳定的&#xff0c;则可选择的排序方法是&#xff08; &#xff09;。 A. 快速排序  B. 堆排序 C. 归并排序 D. 直接插入排序 2、下列排序方法中&#xff08; &#xff09;…

基于智能语音交互的智能呼叫中心工作机制

在智能化和信息化不断进步的现代&#xff0c;智能呼叫中心为客户提供高质量、高效率的服务体验&#xff0c;提升众多品牌用户的满意度和忠诚度。作为实现智能呼叫中心的关键技术之一的智能语音交互技术&#xff0c;它通过集成自然语言处理&#xff08;NLP&#xff09;、语音识别…

《山海经》:北山

《山海经》&#xff1a;北山 北山一经单狐山求如山&#xff08;水马&#xff1a;形状与马相似&#xff0c;滑鱼&#xff1a;背部红色&#xff09;带山&#xff08;䑏疏&#xff1a;似马&#xff0c;一只角&#xff0c;鵸鵌&#xff1a;状乌鸦五彩斑斓&#xff0c;儵鱼&#xff…

【CSS】一篇掌握CSS

不是因为有了希望才去坚持,而是坚持了才有了希望 目录 一.导入方式 1.行内样式 2.内部样式 3.外部样式(常用) 二.选择器 1.基本选择器(常用) 1.1标签选择器 1.2类选择器 1.3id选择器 2.层次选择器 2.1后代选择器 2.2子选择器 2.3相邻兄弟选择器 2.4通用兄弟选择器…

ASP.NET Core项目中使用SqlSugar连接多个数据库的方式

之前学习ASP.NETCore及SqlSugar时都是只连接单个数据库处理数据&#xff0c;仅需在Program文件中添加ISqlSugarClient的单例即可&#xff08;如下代码所示&#xff09;。 builder.Services.AddSingleton<ISqlSugarClient>(s > {SqlSugarScope sqlSugar new SqlSugar…

详解Qt Pdf之QPdfBookmarkModel 读取pdf标签页并显示

文章目录 前言1. Qt 中的 QPdfBookmarkModel 简介1.1 主要成员类型和方法 2. 使用 QPdfBookmarkModel 显示 PDF 标签页2.1 准备环境2.2 创建界面和基本结构2.3 加载 PDF 文件并显示书签2.4 显示书签 总结 前言 Qt 是一个强大的跨平台应用程序开发框架&#xff0c;它提供了许多…

Android Studio 右侧工具栏 Gradle 不显示 Task 列表

问题&#xff1a; android studio 4.2.1版本更新以后AS右侧工具栏Gradle Task列表不显示&#xff0c;这里需要手动去设置 解决办法&#xff1a; android studio 2024.2.1 Patch 2版本以前的版本设置&#xff1a;依次打开 File -> Settings -> Experimental 选项&#x…