python机器学习(五)逻辑回归、决策边界、代价函数、梯度下降法实现线性和非线性逻辑回归

news/2025/1/15 17:50:59/

线性回归所解决的问题是把数据集的特征传入到模型中,预测一个值使得误差最小,预测值无限接近于真实值。比如把房子的其他特征传入到模型中,预测出房价, 房价是一系列连续的数值,线性回归解决的是有监督的学习。有很多场景预测出来的结果不一定是连续的,我们要解决的问题并不是一直类似于房价的问题。

分类问题

预测是红细胞还是白细胞,红细胞和白细胞是两个完全不同的类别。预测的时候首先要有历史数据,训练出模型,然后对模型进行反复的评估后得到理想的模型,然后把新的数据传入到模型中,进行一系列的预测,得到是红细胞(0),或者白细胞(1),这是最简单的二分类的问题。
在这里插入图片描述
如果用线性回归解决分类问题, y = 0 y=0 y=0为红细胞, y = 1 y=1 y=1为白细胞,数据集的呈现情况如下图所示,此时需要找到一条线,把二者分开,用线性回归去做的话,一要考虑代价函数最小(误差最小),二要将数据最好的分开。要将红白细胞分开的话,在线上取一个值(0.5),若 h ( x ) > = 0.5 h(x)>=0.5 h(x)>=0.5的话,得到的点在上方,预测的结果为1;如果 h ( x ) < 0.5 h(x)<0.5 h(x)<0.5的话,得到的点在下方,预测的结果为0。
在这里插入图片描述
如果数据中多了一个样本点,如下图所示,拟合线的求解应该是代价函数最小,拟合线会出现往右侧拓展的情况,为图中蓝色的线,如果 h ( x ) = 0.5 h(x)=0.5 h(x)=0.5的话,会出现在A区域的点不是完全为1的。也就是说当数据中出现了一个异常的样本点的时候,用线性回归模型解决问题的时候,就会让我们整体的预测都发生变化,这时就要引入逻辑回归算法。
在这里插入图片描述

逻辑回归

逻辑回归算法是当今最流行以及使用最广泛的算法之一。虽然它的名字中含有回归二字,但实际上是用来解决分类问题的。常用的场景:数据挖掘;疾病自动诊断;经济预测领域,还有垃圾邮件分类等。逻辑回归在深度学习中也是比较重要的,它是个比较经典的算法,它的很多原理被用在深度学习、神经网络中。

逻辑回归的实现

预测函数: h ( x ) = θ T X h(x)=θ^TX h(x)=θTX,预测值会远远大于1,或远远小于0,就无法做分类,目标:将 h ( x ) h(x) h(x)进行收敛到0和1之间, 0 < = h ( x ) 0 < = 1 0<=h(x)0<=1 0<=h(x)0<=1
实现:使用 s i g m o i d ( L o g i s t i c ) sigmoid(Logistic) sigmoid(Logistic)函数, g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+ez1。当 z z z趋向于 + ∞ +∞ + e − z e^{-z} ez趋向于0, g ( z ) g(z) g(z)就无限趋向于1;当 z z z趋向于 − ∞ -∞ e − z e^{-z} ez趋向于 + ∞ +∞ + g ( z ) g(z) g(z)就无限趋向于0。
在这里插入图片描述

h ( x ) h(x) h(x)代入到 g ( z ) g(z) g(z)中去,得到 g ( θ T X ) = 1 1 + e − θ T X g(θ^TX)=\frac{1}{1+e^{-θ^TX}} g(θTX)=1+eθTX1,可以将 g ( θ T X ) g(θ^TX) g(θTX)映射到0和1之间。
在这里插入图片描述
θ T X > = 0 θ^TX>=0 θTX>=0的时候, g ( θ T X ) > = 0.5 g(θ^TX)>=0.5 g(θTX)>=0.5,趋近于1;
θ T X < 0 θ^TX<0 θTX<0的时候, g ( θ T X ) < 0.5 g(θ^TX)<0.5 g(θTX)<0.5,趋近于0。公式还可以写为 h ( x ) = 1 1 + e − θ T X h(x)=\frac{1}{1+e^{-θ^TX}} h(x)=1+eθTX1
将一组数据训练出来模型,将新的数据代入到模型中,得到预测的结果,结果不可能刚好是0或者1,也可能在0和1之间,若得到的结果 h ( x ) = 0.7 h(x)=0.7 h(x)=0.7,可以预测有70%的几率为白细胞(1),为红细胞(0)的概率为30%。为其中一种的概率: h ( x ) = P ( y = 1 ∣ x ; θ ) h(x)=P(y=1|x;θ) h(x)=P(y=1∣x;θ),在 y = 1 y=1 y=1的条件下 x x x的概率;两者之间的概率和: P ( y = 1 ∣ x ; θ ) + P ( y = 0 ∣ x ; θ ) = 1 P(y=1|x;θ)+P(y=0|x;θ)=1 P(y=1∣x;θ)+P(y=0∣x;θ)=1

  • 总结
    h ( x ) h(x) h(x)使用 g ( θ T X ) g(θ^TX) g(θTX)收敛到0和1之间。
    h ( x ) = g ( θ T X ) = P ( y = 1 ∣ x ; θ ) h(x)=g(θ^TX)=P(y=1|x;θ) h(x)=g(θTX)=P(y=1∣x;θ) g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+ez1
    θ T X > 0 , h ( x ) > = 0.5 θ^TX>0,h(x)>=0.5 θTX>0,h(x)>=0.5,则预测 y = 1 y=1 y=1
    θ T X < 0 , h ( x ) < 0.5 θ^TX<0,h(x)<0.5 θTX<0,h(x)<0.5,则预测 y = 0 y=0 y=0

决策边界

帮助我们更好的理解逻辑回归,理解函数表达的内涵, x 1 x_1 x1 x 2 x_2 x2分布代表特征,得到 h ( x ) = g ( θ 0 + θ 1 x 1 + θ 2 x 2 ) h(x)=g(θ_0+θ_1x_1+θ_2x_2) h(x)=g(θ0+θ1x1+θ2x2),后半部分相当于 θ T X θ^TX θTX
如下图所示,假设 θ 0 = − 3 , θ 1 = 1 , θ 2 = 1 θ_0=-3,θ_1=1,θ_2=1 θ0=3θ1=1θ2=1,得到 θ T X = − 3 + x 1 + x 2 θ^TX=-3+x_1+x_2 θTX=3+x1+x2,如果 − 3 + x 1 + x 2 > = 0 -3+x_1+x_2>=0 3+x1+x2>=0,意味着 h ( x ) > = 0.5 h(x)>=0.5 h(x)>=0.5,值更加接近于1,则 y = 1 y=1 y=1划分为1的可能性比较大;如果 − 3 + x 1 + x 2 < 0 -3+x_1+x_2<0 3+x1+x2<0,意味着 h ( x ) < 0.5 h(x)<0.5 h(x)<0.5,值更加接近于0,则 y = 0 y=0 y=0划分为0的可能性比较大。根据表达式画线,将 − 3 -3 3移到等号的右边,当 x 1 = 0 x_1=0 x1=0时, x 2 = 3 x_2=3 x2=3;当 x 2 = 0 x_2=0 x2=0时, x 1 = 3 x_1=3 x1=3,两点之间画线,在线上方是 x 1 + x 2 > = 3 x_1+x_2>=3 x1+x2>=3的部分,类别预测为1,同理可得,在线下方,类别预测为0。
在这里插入图片描述

在下图中,用叉号表示正样本,用圈表示负样本,此时不能用一条直线将二者进行划分了,在之前线性回归的时候,如果数据不能用一条直线拟合,用多项式回归,添加一些高阶的式子。在逻辑回归的时候,也可以使用相同的方法。
h ( x ) = g ( θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 1 2 + θ 4 x 2 2 ) h(x)=g(θ_0+θ_1x_1+θ_2x_2+θ_3x_1^2+θ_4x_2^2) h(x)=g(θ0+θ1x1+θ2x2+θ3x12+θ4x22),其中 θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 1 2 + θ 4 x 2 2 θ_0+θ_1x_1+θ_2x_2+θ_3x_1^2+θ_4x_2^2 θ0+θ1x1+θ2x2+θ3x12+θ4x22相当于 θ T X θ^TX θTX
如下图所示,假设 θ 0 = − 1 , θ 1 = 0 , θ 2 = 0 , θ 3 = 1 , θ 4 = 1 θ_0=-1,θ_1=0,θ_2=0,θ_3=1,θ_4=1 θ0=1θ1=0θ2=0θ3=1θ4=1,代入公式后得到 θ T X = − 1 + x 1 2 + x 2 2 θ^TX=-1+x_1^2+x_2^2 θTX=1+x12+x22,若 − 1 + x 1 2 + x 2 2 > = 0 -1+x_1^2+x_2^2>=0 1+x12+x22>=0,则可以得到 θ T X = x 1 2 + x 2 2 > = 1 θ^TX=x_1^2+x_2^2>=1 θTX=x12+x22>=1 h ( x ) h(x) h(x)的值大于0.5,类别划分为1,否则类别划分为0。 x 1 2 + x 2 2 = 1 x_1^2+x_2^2=1 x12+x22=1是以原点为圆心,半径为1的标准圆,也即是决策边界,在圆外部的点是要大于半径的,属于类别为1的,反之在圆内部的点是小于半径的,属于类别为0的。决策边界是通过 θ θ θ来确定的, h ( x ) = 1 1 + e − θ T X h(x)=\frac{1}{1+e^{-θ^TX}} h(x)=1+eθTX1,1和e都是常数,X为数据样本集(特征),只有 θ θ θ是个参数,只要确定了 θ θ θ也就确定了决策边界 h ( x ) h(x) h(x),也就可以预测边界 h ( x ) h(x) h(x)的值。
在这里插入图片描述
求解 θ θ θ值,跟线性回归有类似之处,求 θ θ θ是基于代价函数的,使得代价函数最小,求得 θ θ θ值。

代价函数

凸函数只有1个全局最优解,非凸函数求最优解的时候,很有可能陷入到局部最优解中,而不是全局最小值。非凸函数无法通过梯度下降法取得全局最小值。
在这里插入图片描述
线性回归所定义的代价函数为: J ( θ ) = 1 2 m ∑ i = 1 m ( h ( x i ) − y i ) 2 J(θ)= \frac{1}{2m}\displaystyle{\sum_{i=1}^{m}(h(x^i)-y^i)^2} J(θ)=2m1i=1m(h(xi)yi)2,真实值减去预测值的平方求和,然后除以特征的个数,也就是均方误差,此时 h ( x i ) = θ 0 + θ 1 x i h(x^i)=θ_0+θ_1x^i h(xi)=θ0+θ1xi,如果把代价函数运用到逻辑回归当中,此时 h ( x i ) h(x^i) h(xi)不再是简单的线性回归关系,而是 h ( x ) = 1 1 + e − θ T X h(x)=\frac{1}{1+e^{-θ^TX}} h(x)=1+eθTX1,把等号后面的内容整体代入到代价函数中去,图形就会变成非凸函数,不便于求全局最小值。
目标:找到一个不同的代价函数,能使得 J ( θ ) J(θ) J(θ)变为凸函数。
实现:使用对数去掉指数化带来的影响,转化为线性关系,用对数把指数对冲掉。 2 n = 4 2^n=4 2n=4,可以转换为 l o g 2 4 = n log_24=n log24=n,求得 n = 2 n=2 n=2
解决方法:转为凸函数,如果为一元,直接求二阶导,若大于等于零,则为凸函数;如果为多元的,借助hessian矩阵来解决,涉及到正定性。
作用:凸函数的局部最优解就是全局最优解。

  • y = 1 y=1 y=1时,代价函数 C o s t ( h ( x ) , y ) = − l o g e ( h ( x ) ) Cost(h(x),y)=-log_e(h(x)) Cost(h(x),y)=loge(h(x))
    C o s t Cost Cost为当前样本预测的损失。P为概率, y = 1 y=1 y=1的概率。
    y = 1 y=1 y=1时, h ( x ) h(x) h(x)要接近于1才能使得代价函数最小, y y y为真实值,类别为1, h ( x ) = P ( y = 1 ∣ x ; θ ) h(x)=P(y=1|x;θ) h(x)=P(y=1∣x;θ)为预测值为1的概率,概率越大就意味着越接近于结果 y = 1 y=1 y=1。如果 h ( x ) = 1 h(x)=1 h(x)=1是最好的效果, C o s t = − l o g e ( h ( x ) ) = 0 Cost=-log_e(h(x))=0 Cost=loge(h(x))=0,意味着损失最小,代价函数为0;
    如果 h ( x ) = 0 h(x)=0 h(x)=0 h ( x ) = P ( y = 1 ∣ x ; θ ) h(x)=P(y=1|x;θ) h(x)=P(y=1∣x;θ)为预测值为1的概率为0, C o s t ( h ( x ) , y ) = − l o g e ( h ( x ) ) Cost(h(x),y)=-log_e(h(x)) Cost(h(x),y)=loge(h(x))为无穷大,损失值非常大。
    在这里插入图片描述
  • y = 0 y=0 y=0时,代价函数 C o s t ( h ( x ) , y ) = − l o g e ( 1 − h ( x ) ) Cost(h(x),y)=-log_e(1-h(x)) Cost(h(x),y)=loge(1h(x))
    y = 0 y=0 y=0时, h ( x ) h(x) h(x)为1, C o s t ( h ( x ) , y ) = − l o g e ( 1 − h ( x ) ) Cost(h(x),y)=-log_e(1-h(x)) Cost(h(x),y)=loge(1h(x))预测值为1的概率为0, l o g ( 1 − h ( x ) ) log(1-h(x)) log(1h(x))为无穷大;反之 h ( x ) h(x) h(x)为0,趋向于 y = 0 y=0 y=0的类别, − l o g e 1 = 0 -log_e1=0 loge1=0,损失最小。
    在这里插入图片描述
    注意:对于逻辑回归来说,不需要区分预测概率类别。当 h ( x ) = P > = 0.5 h(x)=P>=0.5 h(x)=P>=0.5,划分为1这个类别,趋近于1;当 h ( x ) = P < 0.5 h(x)=P<0.5 h(x)=P<0.5,划分到0这个类别,趋近于0。
    以上两个代价函数是个分段的,求解 θ θ θ值时要解决实际的问题,而 y = 0 或 1 y=0或1 y=01,可以简化方程式来求代价函数,把以上两个式子整合成一个,方便后期的求导。 C o s t ( h ( x ) , y ) = − y l o g e ( h ( x ) ) − ( 1 − y ) l o g e ( 1 − h ( x ) ) Cost(h(x),y)=-ylog_e(h(x))-(1-y)log_e(1-h(x)) Cost(h(x),y)=yloge(h(x))(1y)loge(1h(x))
    在这里插入图片描述
    C o s t ( h ( x ) , y ) Cost(h(x),y) Cost(h(x),y)为一个样本数据的损失,每个样本点都有损失,要将很多个样本点进行整合,进行求和除以样本的个数,将负号提出来,得到以下的式子,这种方式也为交叉熵。
    J ( θ ) = 1 m ∑ i = 1 m C o s t ( h ( x ) , y ) = − 1 m ∑ i = 1 m [ y l o g e ( h ( x ) ) + ( 1 − y ) l o g e ( 1 − h ( x ) ) ] J(θ)= \frac{1}{m}\displaystyle{\sum_{i=1}^{m}Cost(h(x),y)}=-\frac{1}{m}\displaystyle{\sum_{i=1}^{m}[ylog_e(h(x))+(1-y)log_e(1-h(x))]} J(θ)=m1i=1mCost(h(x),y)=m1i=1m[yloge(h(x))+(1y)loge(1h(x))]
    逻辑回归是很常用的算法,也用于深度学习中。这个方程式运用了统计学中的极大自然法,为不同的模型快速找出参数,同时也是个凸函数,解决了之前非凸函数的问题,便于接下来的求导。

梯度下降法推导

代价函数:
J ( θ ) = = − 1 m ∑ i = 1 m [ y l o g e ( h ( x ) ) + ( 1 − y ) l o g e ( 1 − h ( x ) ) ] J(θ)= =-\frac{1}{m}\displaystyle{\sum_{i=1}^{m}[ylog_e(h(x))+(1-y)log_e(1-h(x))]} J(θ)==m1i=1m[yloge(h(x))+(1y)loge(1h(x))]
目标:求 θ θ θ,使得代价函数 J ( θ ) J(θ) J(θ)最小。
换元法, z = θ T X z=θ^TX z=θTX,对 g ( z ) g(z) g(z)的求导就变为了对 1 1 + e − z \frac{1}{1+e^{-z}} 1+ez1进行求导, 1 + e − z 1+e^{-z} 1+ez求导,就变为了 e − z e^{-z} ez导数乘以 − z -z z的导数,对 z = θ T X z=θ^TX z=θTX求导,X为常数, θ T θ^T θT为变量,求导后为 x x x

在这里插入图片描述
在这里插入图片描述
代价函数求导之后的结果为:
在这里插入图片描述
梯度下降法的本质是通过不停的求导,迭代曲线下降的方向,是凸优化的问题,通过求导决定曲线下降的速度和方向,最快的达到最低点,损失最小的过程
l o g e x = l n x = 1 x log_ex=lnx=\frac{1}{x} logex=lnx=x1

梯度下降法实现线性逻辑回归

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

sklearn实现线性逻辑回归

逻辑回归API

sklearn.linear_model.LogisticRegression(solver='liblinear',penalty='l2',C=1.0,
solver 可选参数:{'liblinear','sag','saga','newton-cg','lbfgs'}
penalty:正则化的种类
C:正则化力度

liblinear为默认值,是优化问题的算法,适用于小数据集;sag,saga用于大型数据集,newton-cg用于多类的问题。
数据中有正例和反例,sklearn接口默认将数量少的作为正例。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

梯度下降法实现非线性逻辑回归

分类评估报告API

sklearn.metrics.classification_report(y_true,y_pred,labels=[],target_names=None)
y_true:真实目标值
y_pred:估计器预测目标值
labels:指定类别对应的数字
target_names:目标类别名称
return:每个类别精确率与召回率

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

使用sklearn提供的数据集

在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/news/983808.html

相关文章

(学习日记)2023.06.09

写在前面&#xff1a; 由于时间的不足与学习的碎片化&#xff0c;写博客变得有些奢侈。 但是对于记录学习&#xff08;忘了以后能快速复习&#xff09;的渴望一天天变得强烈。 既然如此 不如以天为单位&#xff0c;以时间为顺序&#xff0c;仅仅将博客当做一个知识学习的目录&a…

深度学习入门教程(2):使用预训练模型来文字生成图片TextToImageGenerationWithNetwork

本深度学习入门教程是在polyu HPCStudio 启发以及资源支持下进行的&#xff0c;在此也感谢polyu以及提供支持的老师。 本文内容&#xff1a;在GoogleColab平台上使用预训练模型来文字生成图片Text To Image Generation With Network &#xff08;1&#xff09;你会学到什么&a…

纪录片《打铁文艺社》:从全美高中生电影节到多项国际赞誉,聚焦城市公共艺术的蜕变之路

7月21日&#xff0c;在全美高中生电影节&#xff08;All American High School Film Festival&#xff0c;AAHSFF&#xff09;公布的入围名单中&#xff0c;一部取材于中国深圳的纪录片《打铁文艺社Datie: The Art Tribe of Tiegang》以其深刻的主题和精良的制作&#xff0c;引…

数据结构基础:2.顺序表。

顺序表的介绍和实现 一.线性表1.基本概念&#xff1a; 二.顺序表&#xff1a;1.基本概念&#xff1a;分类&#xff1a;1.静态顺序表&#xff1a;分类&#xff1a;2.动态顺序表&#xff1a;2.动态顺序表的功能接口的实现&#xff1a;0.顺序表打印&#xff1a;1.初始化和删除&…

JSON格式Python,Java,PHP等封装获取淘宝店铺所有商品数据API

淘宝是一个网上购物平台&#xff0c;售卖各类商品&#xff0c;包括服装、鞋类、家居用品、美妆产品、电子产品等。要获取淘宝天猫店铺商品详情描述数据&#xff0c;您可以通过开放平台的接口或者直接访问淘宝天猫商城的网页来获取店铺所有商品列表详细信息。以下是两种常用方法…

java-day01

一&#xff1a;基础常识 软件&#xff1a;按照特定顺序的计算机数据与指令的集合。可分为系统软件&#xff08;如操作系统&#xff09;和应用软件&#xff08;如QQ&#xff09; 人机交互方式&#xff1a;图形化界面&#xff08;GUI&#xff09;与命令行&#xff08;CLI&#…

推荐系统-ALS协同过滤算法实现

从协同过滤的分类来说&#xff0c;ALS&#xff08;Alternating Least Squares&#xff0c;交替最小二乘&#xff09;算法属于User-Item CF&#xff0c;也叫做混合CF&#xff0c;它同时考虑了User和Item两个方面&#xff0c;通过数量相对少的未被观察到的隐藏因子&#xff0c;来…

运算放大器基础(二)

5.4.4基于理想运放的放大倍数分析 集成运放两个工作区&#xff1a; 线性区、非线性区 集成运放的理想化参数&#xff1a; 理想运放在线性区的特点 集成运放工作在线性区的电路特征