逻辑回归解密:原理、公式和优化全解析

embedded/2024/12/22 9:08:10/

文章目录

  • 一、 前言
  • 二、逻辑回归的原理和基本公式
    • 1. 逻辑回归的原理
      • 核心函数:Sigmoid函数
    • 2. 逻辑回归模型
    • 3. 梯度上升法参数估计:最大似然估计
      • 对数似然函数
      • 求导过程
      • 参数更新
    • 4. 梯度下降法参数估计:最小化损失函数
      • 逻辑回归的负对数似然函数
      • 梯度下降法求导过程
      • 参数更新规则
    • 5. 迭代更新
  • 三、逻辑回归的求导过程详解
    • 对数似然函数
    • Sigmoid函数及其导数
    • 求导步骤
    • 参数更新规则
  • 四、总结


一、 前言

机器学习领域,逻辑回归是一个基础且极其重要的算法,尤其适用于处理二分类问题。它通过将特征的线性组合通过Sigmoid函数映射到概率值,用以预测事件的发生概率。本文将深入探讨逻辑回归的核心原理,从Sigmoid函数的基础开始,详细解析最大似然估计法的求导过程。通过逐步展开的数学推导,我们希望使读者能够全面理解并应用逻辑回归于实际的数据分析和机器学习项目中。


二、逻辑回归的原理和基本公式

1. 逻辑回归的原理

逻辑回归模型假设目标变量 Y Y Y取值为0或1,它通过一个概率分布链接函数(Sigmoid函数)将特征的线性组合映射到(0, 1)区间,这样的输出可以解释为事件发生的概率。

核心函数:Sigmoid函数

Sigmoid函数是逻辑回归中使用的链接函数,定义为:
σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+ez1
其中 z z z是输入特征的线性组合:
z = β 0 + β 1 x 1 + β 2 x 2 + … + β n x n z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n z=β0+β1x1+β2x2++βnxn

2. 逻辑回归模型

逻辑回归模型预测给定输入特征 X X X下,目标事件 Y = 1 Y=1 Y=1的概率:
P ( Y = 1 ∣ X ) = σ ( β T X ) P(Y = 1 | X) = \sigma(\beta^T X) P(Y=1∣X)=σ(βTX)
这里, β T X \beta^T X βTX表示参数向量 β \beta β和特征向量 X X X的点积。

3. 梯度上升法参数估计:最大似然估计

为了找到最佳的参数 β \beta β逻辑回归使用最大似然估计方法,即选择能够使得观测到的样本数据最有可能出现的参数值。

对数似然函数

对数似然函数基于所有观测数据,可以写为:
ℓ ( β ) = ∑ i = 1 n [ y ( i ) log ⁡ σ ( z ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − σ ( z ( i ) ) ) ] \ell(\beta) = \sum_{i=1}^n \left[ y^{(i)} \log \sigma(z^{(i)}) + (1 - y^{(i)}) \log (1 - \sigma(z^{(i)})) \right] (β)=i=1n[y(i)logσ(z(i))+(1y(i))log(1σ(z(i)))]
其中 z ( i ) = β T x ( i ) z^{(i)} = \beta^T x^{(i)} z(i)=βTx(i)

求导过程

要最大化对数似然函数,需要对其进行求导,找到梯度为零的点。首先,我们利用链式法则和Sigmoid函数的导数,对 β j \beta_j βj的偏导数展开:

  1. Sigmoid函数的导数:
    d σ d z = σ ( z ) ( 1 − σ ( z ) ) \frac{d\sigma}{dz} = \sigma(z)(1 - \sigma(z)) dzdσ=σ(z)(1σ(z))

  2. 链式法则的应用:
    ∂ ℓ ( β ) ∂ β j = ∑ i = 1 n [ y ( i ) 1 σ ( z ( i ) ) − ( 1 − y ( i ) ) 1 1 − σ ( z ( i ) ) ] σ ( z ( i ) ) ( 1 − σ ( z ( i ) ) ) x j ( i ) \frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left[ y^{(i)} \frac{1}{\sigma(z^{(i)})} - (1 - y^{(i)}) \frac{1}{1 - \sigma(z^{(i)})} \right] \sigma(z^{(i)})(1 - \sigma(z^{(i)})) x_j^{(i)} βj(β)=i=1n[y(i)σ(z(i))1(1y(i))1σ(z(i))1]σ(z(i))(1σ(z(i)))xj(i)
    这可以简化为:
    ∂ ℓ ( β ) ∂ β j = ∑ i = 1 n ( y ( i ) − σ ( z ( i ) ) ) x j ( i ) \frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left( y^{(i)} - \sigma(z^{(i)}) \right) x_j^{(i)} βj(β)=i=1n(y(i)σ(z(i)))xj(i)

参数更新

使用梯度上升法来更新参数 β \beta β
β j : = β j + α ∑ i = 1 n ( y ( i ) − σ ( z ( i ) ) ) x j ( i ) \beta_j := \beta_j + \alpha \sum_{i=1}^n \left( y^{(i)} - \sigma(z^{(i)}) \right) x_j^{(i)} βj:=βj+αi=1n(y(i)σ(z(i)))xj(i)
其中, α \alpha α是学习率。

4. 梯度下降法参数估计:最小化损失函数

逻辑回归的负对数似然函数

首先,定义负对数似然函数(即损失函数)为:
J ( β ) = − ℓ ( β ) = − ∑ i = 1 n [ y ( i ) log ⁡ σ ( z ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − σ ( z ( i ) ) ) ] J(\beta) = -\ell(\beta) = -\sum_{i=1}^n \left[ y^{(i)} \log \sigma(z^{(i)}) + (1 - y^{(i)}) \log (1 - \sigma(z^{(i)})) \right] J(β)=(β)=i=1n[y(i)logσ(z(i))+(1y(i))log(1σ(z(i)))]
其中 z ( i ) = β T x ( i ) z^{(i)} = \beta^T x^{(i)} z(i)=βTx(i),与之前相同。

梯度下降法求导过程

为了使用梯度下降法,我们需要求出负对数似然函数的梯度。求导步骤相似,但注意梯度的符号会反转。

我们已知:
∂ ℓ ( β ) ∂ β j = ∑ i = 1 n ( y ( i ) − σ ( z ( i ) ) ) x j ( i ) \frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left( y^{(i)} - \sigma(z^{(i)}) \right) x_j^{(i)} βj(β)=i=1n(y(i)σ(z(i)))xj(i)

因此,负对数似然函数的梯度(负梯度)为:
∂ J ( β ) ∂ β j = − ∂ ℓ ( β ) ∂ β j = ∑ i = 1 n ( σ ( z ( i ) ) − y ( i ) ) x j ( i ) \frac{\partial J(\beta)}{\partial \beta_j} = -\frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left( \sigma(z^{(i)}) - y^{(i)} \right) x_j^{(i)} βjJ(β)=βj(β)=i=1n(σ(z(i))y(i))xj(i)

参数更新规则

在梯度下降法中,参数的更新规则为:
β j : = β j − α ∑ i = 1 n ( σ ( z ( i ) ) − y ( i ) ) x j ( i ) \beta_j := \beta_j - \alpha \sum_{i=1}^n \left( \sigma(z^{(i)}) - y^{(i)} \right) x_j^{(i)} βj:=βjαi=1n(σ(z(i))y(i))xj(i)
这里 α \alpha α是学习率,它控制参数更新的步长。

5. 迭代更新

通过迭代更新参数直至收敛(例如,当参数的改变量非常小或达到了预定的迭代次数),我们可以得到使对数似然函数最大化或损失函数最小化的参数 β \beta β


三、逻辑回归的求导过程详解

逻辑回归模型中,我们需要最大化对数似然函数来找到最优参数。首先,我们定义对数似然函数,并详细展示对其求导的过程。

对数似然函数

逻辑回归的对数似然函数是:
ℓ ( β ) = ∑ i = 1 n [ y ( i ) log ⁡ σ ( z ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − σ ( z ( i ) ) ) ] \ell(\beta) = \sum_{i=1}^n \left[ y^{(i)} \log \sigma(z^{(i)}) + (1 - y^{(i)}) \log (1 - \sigma(z^{(i)})) \right] (β)=i=1n[y(i)logσ(z(i))+(1y(i))log(1σ(z(i)))]
其中 z ( i ) = β T x ( i ) z^{(i)} = \beta^T x^{(i)} z(i)=βTx(i)

Sigmoid函数及其导数

Sigmoid函数定义为:
σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+ez1

其导数,通过对函数求导得到:
d σ d z = σ ( z ) ( 1 − σ ( z ) ) \frac{d\sigma}{dz} = \sigma(z)(1 - \sigma(z)) dzdσ=σ(z)(1σ(z))

求导步骤

对于每个参数 β j \beta_j βj,我们应用链式法则:

  1. 链式法则的第一部分:对 log ⁡ σ ( z ( i ) ) \log \sigma(z^{(i)}) logσ(z(i)) log ⁡ ( 1 − σ ( z ( i ) ) ) \log (1 - \sigma(z^{(i)})) log(1σ(z(i)))的导数。

    • log ⁡ σ ( z ( i ) ) \log \sigma(z^{(i)}) logσ(z(i))的导数:
      ∂ ∂ z ( i ) log ⁡ σ ( z ( i ) ) = 1 σ ( z ( i ) ) ⋅ σ ( z ( i ) ) ( 1 − σ ( z ( i ) ) ) = 1 − σ ( z ( i ) ) \frac{\partial}{\partial z^{(i)}} \log \sigma(z^{(i)}) = \frac{1}{\sigma(z^{(i)})} \cdot \sigma(z^{(i)})(1 - \sigma(z^{(i)})) = 1 - \sigma(z^{(i)}) z(i)logσ(z(i))=σ(z(i))1σ(z(i))(1σ(z(i)))=1σ(z(i))

    • log ⁡ ( 1 − σ ( z ( i ) ) ) \log (1 - \sigma(z^{(i)})) log(1σ(z(i)))的导数:
      ∂ ∂ z ( i ) log ⁡ ( 1 − σ ( z ( i ) ) ) = 1 1 − σ ( z ( i ) ) ⋅ ( − σ ( z ( i ) ) ( 1 − σ ( z ( i ) ) ) ) = − σ ( z ( i ) ) \frac{\partial}{\partial z^{(i)}} \log (1 - \sigma(z^{(i)})) = \frac{1}{1 - \sigma(z^{(i)})} \cdot (-\sigma(z^{(i)})(1 - \sigma(z^{(i)}))) = -\sigma(z^{(i)}) z(i)log(1σ(z(i)))=1σ(z(i))1(σ(z(i))(1σ(z(i))))=σ(z(i))

  2. 链式法则的第二部分:对 z ( i ) = β T x ( i ) z^{(i)} = \beta^T x^{(i)} z(i)=βTx(i)的导数,即参数 β j \beta_j βj的影响。
    ∂ z ( i ) ∂ β j = x j ( i ) \frac{\partial z^{(i)}}{\partial \beta_j} = x_j^{(i)} βjz(i)=xj(i)

  3. 整合
    将以上导数结果组合,得到对数似然函数关于 β j \beta_j βj的导数:
    ∂ ℓ ( β ) ∂ β j = ∑ i = 1 n [ y ( i ) ( 1 − σ ( z ( i ) ) ) − ( 1 − y ( i ) ) σ ( z ( i ) ) ] x j ( i ) \frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left[ y^{(i)} (1 - \sigma(z^{(i)})) - (1 - y^{(i)}) \sigma(z^{(i)}) \right] x_j^{(i)} βj(β)=i=1n[y(i)(1σ(z(i)))(1y(i))σ(z(i))]xj(i)
    这可以简化为:
    ∂ ℓ ( β ) ∂ β j = ∑ i = 1 n ( y ( i ) − σ ( z ( i ) ) ) x j ( i ) \frac{\partial \ell(\beta)}{\partial \beta_j} = \sum_{i=1}^n \left( y^{(i)} - \sigma(z^{(i)}) \right) x_j^{(i)} βj(β)=i=1n(y(i)σ(z(i)))xj(i)

参数更新规则

根据上述导数,我们可以使用梯度上升法来更新每个参数 β j \beta_j βj
β j : = β j + α ∑ i = 1 n ( y ( i ) − σ ( z ( i ) ) ) x j ( i ) \beta_j := \beta_j + \alpha \sum_{i=1}^n \left( y^{(i)} - \sigma(z^{(i)}) \right) x_j^{(i)} βj:=βj+αi=1n(y(i)σ(z(i)))xj(i)
这里 α \alpha α是学习率,控制参数更新的步幅。

这个详细的求导过程不仅展示了如何从数学原理出发逐步求解,还清楚地阐释了每一步的逻辑,有助于深入理解逻辑回归模型的参数估计方式。


四、总结

逻辑回归虽然概念上简单,但其背后的数学原理和参数估计过程却包含丰富的统计学知识和优化技巧。通过本文的深入分析,我们不仅解释了如何构建逻辑回归模型,还详细讨论了参数如何通过最大似然估计进行优化。理解这些基础概念不仅有助于更好地运用逻辑回归,也为学习更复杂的机器学习算法打下坚实的基础。


http://www.ppmy.cn/embedded/99335.html

相关文章

ansible --limit 在指定主机执行任务

将任务只应用于指定的主机或主机组,而不是整个 inventory 中的所有主机。 限制单个主机 ansible-playbook -i hosts myplaybook.yml --limit "ip"限制多个主机 ansible-playbook -i hosts myplaybook.yml --limit "ip1,ip2,ip3"限制到主机组…

SpringBoot集成kafka-获取生产者发送的消息(阻塞式和非阻塞式获取)

说明 CompletableFuture对象需要的SpringBoot版本为3.X.X以上,需要的kafka依赖版本为3.X.X以上,需要的jdk版本17以上。 1、阻塞式(等待式)获取生产者发送的消息 生产者: package com.power.producer;import org.ap…

Facebook的区块链战略:如何在社交媒体中实现去中心化

随着区块链技术的发展,Facebook(现Meta)正积极探索如何将这一技术整合进其社交平台中,以提升用户体验和数据安全。区块链技术以去中心化、透明性和不可篡改性为特点,为社交媒体带来了新的可能性。本文将探讨Facebook在…

Jmeter版本下载国内外镜像源

官网最新版本 https://archive.apache.org/dist/jmeter/binaries/历史版本 https://archive.apache.org/dist/jmeter/binaries/ 国内镜像源1.阿里云 https://mirrors.aliyun.com/apache/jmeter/binaries/2.腾讯云 https://mirrors.cloud.tencent.com/apache/jmeter/

WEB应用服务器 -- Tomcat详解及案例实现

一、Web前端三大核心技术 1.1 HTML HTML(HyperText Markup Language)超文本标记语言,它不同于一般的编程语言。超文本即超出纯文本的范畴,例如:描述文本颜色、大小、字体等信息,或使用图片、音频、视频等…

32 - I. 从上到下打印二叉树

comments: true difficulty: 中等 edit_url: https://github.com/doocs/leetcode/edit/main/lcof/%E9%9D%A2%E8%AF%95%E9%A2%9832%20-%20I.%20%E4%BB%8E%E4%B8%8A%E5%88%B0%E4%B8%8B%E6%89%93%E5%8D%B0%E4%BA%8C%E5%8F%89%E6%A0%91/README.md 面试题 32 - I. 从上到下打印二叉树…

Redis远程字典服务器(11)—— redis客户端介绍

一,基本介绍 前面学习的主要是各种Redis的基本操作/命令,都是再Redis命令行客户端,手动执行的,但是这种方式不是我们日常开发中主要的形式更多的时候,是使用Redis的api,来实现定制化的Redis客户端程序&…

CUDA的相关特点及优势

CUDA(Compute Unified Device Architecture)是英伟达(NVIDIA)开发的一种并行计算平台和编程模型。它允许开发者利用 NVIDIA GPU(图形处理器)的并行计算能力来加速应用程序的执行。 主要特点: …