【深度学习】关键技术-激活函数(Activation Functions)

server/2025/1/16 2:38:45/

激活函数(Activation Functions)

激活函数是神经网络的重要组成部分,它的作用是将神经元的输入信号映射到输出信号,同时引入非线性特性,使神经网络能够处理复杂问题。以下是常见激活函数的种类、公式、图形特点及其应用场景。


1. 常见激活函数及其公式与代码示例

1. Sigmoid 激活函数

公式:

\sigma(x) = \frac{1}{1 + e^{-x}}

特点:
  • 输出范围为 (0, 1)。
  • 对输入较大的值趋于 1,较小的值趋于 0。
  • 常用于神经网络输出层处理二分类问题。
  • 优点
    • 将输入映射为概率值,直观且常用于概率任务。
  • 缺点
    • 梯度消失:输入很大或很小时,梯度趋近 0,导致反向传播时权重更新变慢。
    • 输出不以 0 为中心,不利于零均值数据。
代码示例:
import numpy as np
import matplotlib.pyplot as pltdef sigmoid(x):return 1 / (1 + np.exp(-x))# 示例
x = np.linspace(-10, 10, 100)
y = sigmoid(x)plt.plot(x, y)
plt.title("Sigmoid Activation Function")
plt.xlabel("x")
plt.ylabel("sigmoid(x)")
plt.grid()
plt.show()
运行结果: 


2. Tanh(双曲正切)激活函数

公式:

\text{Tanh}(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}

特点:
  • 输出范围为 (-1, 1)。
  • 优点
    • 比 Sigmoid 更对称,输出以 0 为中心,更适合零均值数据。
  • 缺点
    • 梯度消失问题依然存在。
代码示例:
import numpy as np
import matplotlib.pyplot as plt
def tanh(x):return np.tanh(x)x = np.linspace(-10, 10, 100)
y = tanh(x)plt.plot(x, y)
plt.title("Tanh Activation Function")
plt.xlabel("x")
plt.ylabel("tanh(x)")
plt.grid()
plt.show()
运行结果: 


3. ReLU(Rectified Linear Unit)激活函数

公式:

f(x) = max(0, x)

特点:
  • 输出范围为 [0, +∞)。
  • 优点
    • 简单高效,计算速度快。
    • 解决了梯度消失问题,几乎是所有深度学习模型的默认选择。
  • 缺点
    • “死亡神经元”:当输入总是小于 0 时,梯度为 0,神经元可能永远不会被激活。
代码示例:
import numpy as np
import matplotlib.pyplot as pltdef relu(x):return np.maximum(0, x)x = np.linspace(-10, 10, 100)
y = relu(x)plt.plot(x, y)
plt.title("ReLU Activation Function")
plt.xlabel("x")
plt.ylabel("ReLU(x)")
plt.grid()
plt.show()
运行结果: 


4. Leaky ReLU 激活函数

公式:

f(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases}

其中,α 是一个小于 1 的常数,通常取 0.01。

特点:
  • 优点
    • 解决 ReLU 的“死亡神经元”问题。
    • 在负数输入上具有小的线性斜率。
  • 缺点
    • 引入了超参数 α,需手动调节。
代码示例:
import numpy as np
import matplotlib.pyplot as plt
def leaky_relu(x, alpha=0.01):return np.where(x > 0, x, alpha * x)x = np.linspace(-10, 10, 100)
y = leaky_relu(x)plt.plot(x, y)
plt.title("Leaky ReLU Activation Function")
plt.xlabel("x")
plt.ylabel("Leaky ReLU(x)")
plt.grid()
plt.show()
运行结果: 


5. ELU(Exponential Linear Unit)激活函数

公式:

f(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha (e^x - 1) & \text{if } x \leq 0 \end{cases}

其中,α 通常取 1。

特点:
  • 优点
    • 负数部分平滑处理,有助于减少梯度消失问题,训练更稳定。
    • 能加速模型收敛。
  • 缺点
    • 计算复杂度稍高。
代码示例:
import numpy as np
import matplotlib.pyplot as plt
def elu(x, alpha=1.0):return np.where(x > 0, x, alpha * (np.exp(x) - 1))x = np.linspace(-10, 10, 100)
y = elu(x)plt.plot(x, y)
plt.title("ELU Activation Function")
plt.xlabel("x")
plt.ylabel("ELU(x)")
plt.grid()
plt.show()
运行结果: 


6. Softmax 激活函数

公式:

\text{Softmax}(x_i) = \frac{e^{x_i}}{\sum_{j=1}^n e^{x_j}}

特点:
  • 将输入映射为概率分布,适用于多分类问题,常用于多分类问题的最后一层。
  • 输出范围为 (0, 1),且总和为 1。
代码示例:
import numpy as npdef softmax(x):exp_x = np.exp(x - np.max(x))  # 防止数值溢出return exp_x / np.sum(exp_x)# 示例
x = np.array([1.0, 2.0, 3.0, 6.0])
y = softmax(x)print("Softmax Output:", y)
print("Sum of Softmax Output:", np.sum(y))  # 确保总和为 1
运行结果:
Softmax Output: [0.00626879 0.01704033 0.04632042 0.93037047]
Sum of Softmax Output: 1.0


7. Swish 激活函数

公式:

f(x) = x \cdot \text{Sigmoid}(\beta x)

其中,β 是可学习参数,通常默认为 1。

特点:
  • 优点
    • 平滑可微,能捕获复杂特征。
    • 在深度网络中比 ReLU 表现更优。
代码示例:
import numpy as np
import matplotlib.pyplot as pltdef sigmoid(x):return 1 / (1 + np.exp(-x))
def swish(x, beta=1.0):return x * sigmoid(beta * x)x = np.linspace(-10, 10, 100)
y = swish(x)plt.plot(x, y)
plt.title("Swish Activation Function")
plt.xlabel("x")
plt.ylabel("Swish(x)")
plt.grid()
plt.show()
运行结果: 


2. 激活函数的选择与应用

任务导向的选择:
  • 分类问题:
    • 二分类:Sigmoid 或 Softmax。
    • 多分类:Softmax。
  • 回归问题:
  • 深度学习(卷积网络、RNN 等):
    • 通常采用 ReLU 及其变种(Leaky ReLU、ELU)。
层次结构的选择:
  • 隐藏层:
    • 一般使用 ReLU 或其变种。
  • 输出层:
    • 分类:Softmax 或 Sigmoid。
    • 回归:线性激活函数

3.激活函数对比总结

激活函数输出范围是否有梯度消失是否有“死亡神经元”常见应用场景
Sigmoid(0, 1)二分类输出
Tanh(-1, 1)RNN 或零均值数据
ReLU[0, +∞)深层网络的隐藏层
Leaky ReLU(−∞, +∞)深层网络
ELU(−α, +∞)深度网络
Softmax(0, 1)多分类输出层
Swish(−∞, +∞)深度网络或复杂任务

通过结合理论和代码示例,可以根据任务特点选择合适的激活函数以优化模型性能。


4. 未来趋势


http://www.ppmy.cn/server/158718.html

相关文章

【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据...本篇介绍自动驾驶检测模型如何针对corner case 优化?

【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据…本篇介绍自动驾驶检测模型如何针对corner case 优化? 【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据…本篇介绍自动驾驶检测模型如何针对corner case 优化&…

AI文章管理系统(自动生成图文分发到分站)

最近帮一个网上的朋友做了一套AI文章生成系统。他的需求是这样: 1、做一个服务端转接百度文心一言的生成文章的API接口。 2、服务端能注册用户,用户在服务端注册充值后可以获取一个令牌,这个令牌填写到客户端,客户端就可以根据客…

字符串算法篇——字里乾坤,算法织梦,解构字符串的艺术(上)

文章目录 引言:一场字符与算法的交响曲第一章:从匹配到理解——字符串的基础算法1.1 暴力搜索:逐字逐句的匠人精神1.2 KMP算法:文字间的优雅跳跃 第二章:字符串的变形之术——编辑与构造第三章:应用与未来—…

如何将一个数组转换为字符串?

数组基本操作 - 如何将数组转换为字符串? 在 JavaScript 中,数组常常需要转换为字符串格式,以便进行显示、存储或传递数据。幸运的是,JavaScript 提供了多种方法来实现这一功能。本文将详细讲解如何将一个数组转换为字符串&#…

【python】OpenCV—Local Translation Warps

文章目录 1、功能描述2、原理分析3、代码实现4、效果展示5、完整代码6、参考 1、功能描述 利用液化效果实现瘦脸美颜 交互式的液化效果原理来自 Gustafsson A. Interactive image warping[D]. , 1993. 2、原理分析 上面描述很清晰了,鼠标初始在 C,也即…

互联网全景消息(11)之Kafka深度剖析(下)

一、Kafka底层架构 1.1 存储架构 在前面讲过kafka每个主题可以有多个分区,每个分区在它所在的broker上创建一个文件夹每个分区又分为多个段,每个段两个文件,log文件存储顺序消息,index文件里存消息的索引,然后每一个段…

toJSON使用中遇到的问题

目录 为什么要使用JSON使用JSON遇到的问题最后 为什么要使用JSON 在我的项目中,我想使用layui的模版来渲染我的页面,而这个页面我是想通过将它配置成参数来渲染的 具体实现是这样 var laytpl layui.laytpl laytpl(html).render(data, function (strin…

27年《海贼王》:动漫停更,游戏加更

12月的尾声,今年最后一款二游《航海王壮志雄心》正式上线。 2024年,对于新上的二游而言,并不是一个友好的时间段。 由于《原神》带动二游研发浪潮,海量的二游项目在2023年和2024年涌现,导致市场彻底沦为买方市场&…