Spark-机器学习(3)回归学习之线性回归

devtools/2024/10/22 18:49:12/

在之前的文章中,我们了解我们的机器学习,了解我们spark机器学习中的特征提取和我们的tf-idf,word2vec算法。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢。

Spark-机器学习(2)特征工程之特征提取-CSDN博客文章浏览阅读2k次,点赞54次,收藏36次。今天的文章,我会带着大家一起了解我们的特征提取和我们的tf-idf,word2vec算法。希望大家能有所收获。同时,本篇文章为个人spark免费专栏的系列文章,有兴趣的可以收藏关注一下,谢谢。同时,希望我的文章能帮助到每一个正在学习的你们。也欢迎大家来我的文章下交流讨论,共同进步。https://blog.csdn.net/qq_49513817/article/details/137844271今天的文章,我们来学习我们回归中的线性回归,希望大家能有所收获。 

目录

一、线性回归

        什么是线性回归? 

        spark线性回归

二、示例代码

拓展-线性回归算法介绍及用法

1.算法

2.用法


一、线性回归

什么是线性回归? 

线性回归

线性回归研究是一种统计学上分析的方法,旨在确定两种或两种以上变量间相互依赖的定量关系。这种关系通常用一个线性方程来表示,其中一个或多个自变量(也称为解释变量或特征)与因变量(也称为响应变量或目标)之间的关系被假定为线性。

在线性回归模型中,因变量被假设为自变量通过一个线性组合加上一个常数项(截距)以及一个误差项(随机扰动)来影响。这个线性组合中的系数,也被称为回归系数,反映了各自变量对因变量的影响程度和方向。

线性回归研究通常包括以下步骤:

  1. 数据收集:收集包含自变量和因变量的数据集。

  2. 模型建立:根据收集的数据,建立线性回归模型。

  3. 参数估计:使用最小二乘法等方法来估计模型中的参数(回归系数和截距)。最小二乘法通过最小化预测值与实际值之间的平方误差和来找到最佳拟合的回归系数。

  4. 模型检验:对模型的拟合效果进行检验,包括检验回归系数的显著性(如t检验)以及模型整体的拟合优度(如R²值)。

  5. 预测与解释:利用拟合好的模型进行预测,并解释各自变量对因变量的影响。

线性回归研究在多个领域都有广泛应用,如经济预测、市场营销、医学、社会科学等。它提供了一种量化变量间关系的方法,并能通过统计检验来评估这种关系的可靠性。然而,线性回归的前提假设(如线性关系、误差项的独立性等)需要在实际应用中进行检验,以确保模型的适用性。如果数据不满足这些假设,可能需要使用其他类型的回归模型,如多项式回归、逻辑回归等。

spark%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92">spark线性回归

Spark线性回归是Apache Spark框架中实现线性回归分析的一种功能。线性回归是利用线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。在Spark中,线性回归模型可以通过最小二乘法等优化算法来估计模型的参数,从而建立自变量和因变量之间的线性关系。

Spark支持多种线性回归方法,包括普通线性回归(LinearRegression)、加L1正则化的线性回归(LassoRegression)以及加L2正则化的线性回归(RidgeRegression)。这些方法提供了灵活性和鲁棒性,以适应不同的数据和分析需求。

通过Spark线性回归,用户可以处理大规模数据集,并利用分布式计算能力来加速模型的训练和预测过程。这使得线性回归大数据场景下更加高效和实用。

Spark线性回归是一种利用Apache Spark框架进行线性回归分析的方法,旨在从大规模数据集中发现变量之间的线性关系,并为预测和决策提供支持。

二、示例代码

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.ml.regression.LinearRegression
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.evaluation.RegressionEvaluator
import org.apache.spark.sql.SparkSession
object p4 {def main(args: Array[String]): Unit = {val conf = new SparkConf().setMaster("local").setAppName("ppp")val sc = new SparkContext(conf)val spark = SparkSession.builder().appName("SimpleLinearRegression").getOrCreate()import spark.implicits._// 假设这里有一些数据,例如:(1.0, 2.0, 3.0), (2.0, 3.0, 5.0), ...// 这里我们使用一些随机数据作为示例val data = sc.parallelize(Seq((1.0, 2.0, 3.0),(2.0, 3.0, 5.0),(3.0, 4.0, 7.0))).toDF("feature1", "feature2", "label")// 使用VectorAssembler将所有特征转换为一个特征向量val assembler = new VectorAssembler().setInputCols(Array("feature1", "feature2")).setOutputCol("features")val output = assembler.transform(data)// 分割数据集为训练集和测试集val Array(trainingData, testData) = output.randomSplit(Array(0.7, 0.3))// 创建线性回归模型val lr = new LinearRegression().setMaxIter(10).setRegParam(0.3).setElasticNetParam(0.8)// 在训练集上训练模型val lrModel = lr.fit(trainingData)// 在测试集上进行预测val predictions = lrModel.transform(testData)// 选择(预测值, 真实值)并计算测试误差val evaluator = new RegressionEvaluator().setLabelCol("label").setPredictionCol("prediction").setMetricName("mse")val mse = evaluator.evaluate(predictions)println(s"Root-mean-square error = $mse")}
}

代码首先创建了一个SparkContext和一个SparkSession对象,然后创建了一个包含三个字段(feature1feature2label)的DataFrame,其中feature1feature2是特征,label是目标变量。

然后,代码使用VectorAssemblerfeature1feature2合并成一个特征向量,接着将数据集分割为训练集和测试集。

接下来,代码创建了一个线性回归模型,设置了最大迭代次数、正则化参数和弹性网络混合参数,然后在训练集上训练了这个模型。 

最后,代码在测试集上进行了预测,并使用RegressionEvaluator计算了均方误差(MSE)。

运行代码

 我们成功得到了我们的均方根误差(Root-mean-square Error,简称RMSE)

RMSE 的值越小,说明模型的预测性能越好,即模型的预测值与实际观测值之间的差异越小。相反,RMSE 的值越大,则模型的预测性能越差。

RMSE 对于大的误差非常敏感,因此它可以有效地揭示模型在预测大误差时的性能。

拓展-线性回归算法介绍及用法

1.算法

  • 最小二乘法(Ordinary Least Squares)

    • 描述:最基础的线性回归方法,通过最小化预测值与实际值之间的平方误差来求解回归系数。
    • 特点:计算速度快,但当数据量大或特征多时可能不太稳定。
  • 梯度下降法(Gradient Descent)

    • 描述:通过迭代的方式逐步调整回归系数,以最小化损失函数。
    • 变种
      • 批量梯度下降(Batch Gradient Descent):每次迭代使用所有数据点来更新系数。
      • 随机梯度下降(Stochastic Gradient Descent):每次迭代只使用一个数据点来更新系数,速度更快,适用于大数据集。
    • 特点:灵活,可以通过调整学习率和迭代次数来控制收敛速度和精度。
  • 正则化方法

    • 描述:为了防止过拟合,可以在损失函数中加入正则化项。
    • 类型
      • Lasso回归(L1正则化):使用L1范数作为正则化项,有助于产生稀疏模型。
      • Ridge回归(L2正则化):使用L2范数作为正则化项,有助于稳定模型。
      • ElasticNet回归:结合L1和L2正则化,提供了更多的灵活性。

2.用法

方法/算法关键字描述使用场景示例代码关键字/片段
最小二乘法 (Ordinary Least Squares)通过最小化预测值与实际值之间的平方误差来求解回归系数。基础线性回归场景,当数据量和特征数量适中时。LinearRegression().fit(training)
批量梯度下降 (Batch Gradient Descent)使用所有数据点来计算梯度并更新回归系数,每次迭代都会遍历整个数据集。数据集较小,或需要精确求解的场景。LinearRegression().setMaxIter(10).setRegParam(0.3).fit(training)
随机梯度下降 (Stochastic Gradient Descent)每次迭代只使用一个数据点来计算梯度并更新系数,适用于大数据集。大规模数据集,需要快速迭代更新的场景。LinearRegression().setSolver("sgd").setMaxIter(100).fit(training)
Lasso回归 (L1正则化)在损失函数中加入L1正则化项,有助于产生稀疏模型,适用于特征选择。需要进行特征选择,或希望模型具有稀疏性的场景。LinearRegression().setElasticNetParam(1.0).fit(training)
Ridge回归 (L2正则化)在损失函数中加入L2正则化项,有助于稳定模型,防止过拟合。数据集存在噪声或特征间存在相关性,需要稳定模型的场景。LinearRegression().setRegParam(0.3).fit(training)
ElasticNet回归结合L1和L2正则化,提供了更多的灵活性,可以根据数据和需求调整正则化强度。需要平衡特征选择和模型稳定性的场景。LinearRegression().setElasticNetParam(0.8).fit(training)


http://www.ppmy.cn/devtools/5957.html

相关文章

某零售企业招聘管理体系搭建咨询项目

科学岗位分析,改善招聘流程,提高招聘及时率随着公司不断发展壮大,企业规模逐渐增大,部门设置也日益增多,因此对人员的需求也日益提高。但是目前该企业在人员招聘方面逐渐暴露出一些诸如岗位分析不到位、缺乏整体面试计…

数学建模--非线性规划模型+MATLAB代码保姆式解析

目录 1.简单介绍 2.求解方法 3.适用赛题 4.典型例题及相关分析 (1)问题引入 (2)决策变量&约束条件 (3)确定目标函数 (4)建立数学模型 5.MATLAB代码祝逐字句讲解 1.简单…

线性代数基础2矩阵

矩阵是什么 矩阵就是二维数组,下面是一个 m 乘 n 的矩阵,它有 m 行,n 列,每行每列上面都有元素,每个元素都有行标i 和列标 j, a ij 。简称m n矩阵,记作: 注意a11的索引是 A[0,0]。…

js生成word

js生成word 下载依赖 npm install html-docx-js引入 import htmlDocx from html-docx-js/dist/html-docx;代码 //参数 html 文件名字 下载完执行回调函数 function html2word (html,fileName,callback){const converted htmlDocx.asBlob(html);const link document.cre…

袁庭新ES系列15节|Elasticsearch客户端基础操作

前言 上一章节我们介绍了搭建Elasticsearch集群相关的知识。那么又该如何来操作Elasticsearch集群呢?在ES官网中提供了各种语言的客户端,我们在项目开发过程中有多种Elasticsearch版本和连接客户端可以选择,那么他们有什么区别?这…

ccf 202104-2 邻域均值

暴力解法 import java.util.Scanner;public class NeighborAvgOld {public static void main(String[] args) {Scanner sc new Scanner(System.in);int n sc.nextInt();int L sc.nextInt();int r sc.nextInt();int t sc.nextInt();sc.nextLine();int[][] arr new int[n]…

第15届蓝桥杯题解

A题 结果:2429042904288 思路很简单 前20个数分别是 20 24 40 48 60 72 80 96 100 120 140 144 160 168 180 192 200 216 220 240 第2 4 6 8 12 ...n个数分别是24的 1倍 2倍 3倍 4倍 6倍 n/2倍 所以第202420242024 个数就是 24的 101210121012倍 B题 答案&am…

koa-session获取不到session踩坑记录

前端react,后端koa,然后用session作了验证码的存储。后端用koa-cors做了跨域。 场景:前端请求验证码,后端session保存验证码,前端发送验证码给后端,后端取出session校验。这里校验的时候拿不到。 查找原因…