目录
基本概念和定义
线性回归中的最小二乘法和梯度下降法
最小二乘法
梯度下降法
参数调整策略
梯度下降类型
梯度下降的调参的基本操作
数据归一化方法
1. 最小-最大归一化(Min-Max Scaling)
2. 白化变换(Whitening Transformation)
过拟合和欠拟合的概念及处理方法
过拟合(Overfitting)
欠拟合(Underfitting)
激活函数SIGMOD表示及特点
基本概念和定义
线性回归
逻辑回归
线性回归中的最小二乘法和梯度下降法
两种常用的参数估计方法,都旨在找到最佳拟合数据的直线或超平面,但实现方式有所不同。以下是这两种方法的详细介绍:
最小二乘法
-
目标:最小化预测值与实际值之间的平方误差之和。
梯度下降法
- 目标:同样是为了最小化损失函数 L(β),但是梯度下降法采用的是迭代优化的方法。
- 迭代地调整参数θ,从而使 L最小
参数调整策略
- 步长(学习率):控制每次迭代中参数 θ 更新的幅度。
- 步长太大:可能导致学习过程发散,无法收敛到最小值。
- 步长太小:虽然可以收敛,但训练时间会很长。
梯度下降类型
- 批量梯度下降:每次调参,用训练集的所有样本来计算新参数
- 随机梯度下降:每次调参,在训练集中随机选择一个样本来更新参数
- 批量梯度下降:每次调参,都会对训练集中一小部分进行梯度下降计算更新参数
梯度下降的调参的基本操作
- 当计算值>实际值时,下调相关参数
- 当计算值<实际值时,上调相关参数
数据归一化方法
数据归一化(Normalization)是机器学习和数据分析中常见的预处理步骤,它通过对原始数据进行变换,使得不同特征具有相似的尺度,从而避免某些特征因量级差异过大而对模型训练产生不利影响。
1. 最小-最大归一化(Min-Max Scaling)
2. 白化变换(Whitening Transformation)
-
它不仅标准化数据,还将不同特征之间的相关性去除,使得特征之间相互独立且具有单位方差。
过拟合和欠拟合的概念及处理方法
过拟合(Overfitting)
- 概念:机器学习模型在训练数据上表现良好,但在测试数据或新的数据上表现较差。
- 原因:模型过于复杂,导致模型在训练数据中学习到了数据的噪声和细节。
- 处理方法:① 简化模型 ②正则化 ③早停法 ④数据增强
- 正则化
- 工作原理:通过约束模型权重,即减小参数θ的值,来限制模型复杂度,使得每个特征都对输出的影响尽可能小
- 方法:Lasso回归、岭回归
欠拟合(Underfitting)
- 概念:模型既不能很好地拟合训练数据,也不能很好地预测新数据。
- 原因:模型过于简单,未能捕捉到数据中的潜在模式。
- 处理方法:① 增加模型复杂度 ②特征工程 ③训练更长时间
激活函数SIGMOD表示及特点
使用场景
表示
特点
-
输出范围:输出范围是 (0, 1),这意味着它可以用来表示概率。
-
非线性:Sigmoid 函数是非线性的,这允许神经网络学习复杂的模式。
-
平滑梯度:Sigmoid 函数是处处可导的,其导数在所有点都是正值。这意味着它可以提供一个平滑的梯度,有利于使用梯度下降法进行优化。
线性回归和逻辑回归的异同
同:①基础原理相同,都试图通过拟合一个线性方程建立特征X和目标变量Y之间的关系。②都可以使用梯度下降、最小二乘法等优化算法来估计模型参数,都依赖于损失函数衡量预测值与实际值的差距。
异:① 回归问题(连续数值型目标变量的预测)vs分类问题(二元分类或多分类问题)② 损失函数不同
特征 | 线性回归(Linear Regression) | 逻辑回归(Logistic Regression) |
---|---|---|
主要用途 | 回归问题 | 分类问题 |
因变量 | 预测连续数值型因变量(如房价、销售额等) | 预测二分类或多元分类问题中的类别标签(如是否患病、邮件是否为垃圾邮件)。 |
输出类型 | 连续的数值,输出可以是任意实数 (-∞, +∞)。 | 概率值,输出被压缩在 (0, 1) 区间内,表示概率。 |
损失函数 | 常用最小化均方误差(MSE)作为损失函数。 | 使用对数损失(log loss)或交叉熵损失函数。 |
激活函数 | 没有使用特定的激活函数,直接输出预测值。 | 使用 Sigmoid 函数(对于二分类)将线性组合转换成概率。 |
解释性 | 可以直接解释自变量与因变量之间的关系(斜率代表变化率)。 | 可以通过几率比(Odds Ratio)来解释自变量对结果概率的影响。 |
过拟合风险 | 较低,尤其是当特征数量较少时。 | 如果不加以控制(例如使用正则化),可能有过拟合的风险。 |
数据要求 | 要求自变量和因变量之间存在线性关系,并且残差应满足正态分布等假设。 | 对输入数据没有严格的线性假设,但仍然需要考虑特征选择和工程。 |
参数估计方法 | 最小二乘法(OLS)、梯度下降等。 | 最大似然估计(MLE),也可以使用梯度下降优化。 |