激活函数(Activation Functions)
激活函数是神经网络的重要组成部分,它的作用是将神经元的输入信号映射到输出信号,同时引入非线性特性,使神经网络能够处理复杂问题。以下是常见激活函数的种类、公式、图形特点及其应用场景。
1. 常见激活函数及其公式与代码示例
1. Sigmoid 激活函数
公式:
特点:
- 输出范围为 (0, 1)。
- 对输入较大的值趋于 1,较小的值趋于 0。
- 常用于神经网络输出层处理二分类问题。
- 优点:
- 将输入映射为概率值,直观且常用于概率任务。
- 缺点:
- 梯度消失:输入很大或很小时,梯度趋近 0,导致反向传播时权重更新变慢。
- 输出不以 0 为中心,不利于零均值数据。
代码示例:
import numpy as np
import matplotlib.pyplot as pltdef sigmoid(x):return 1 / (1 + np.exp(-x))# 示例
x = np.linspace(-10, 10, 100)
y = sigmoid(x)plt.plot(x, y)
plt.title("Sigmoid Activation Function")
plt.xlabel("x")
plt.ylabel("sigmoid(x)")
plt.grid()
plt.show()
运行结果:
2. Tanh(双曲正切)激活函数
公式:
特点:
- 输出范围为 (-1, 1)。
- 优点:
- 比 Sigmoid 更对称,输出以 0 为中心,更适合零均值数据。
- 缺点:
- 梯度消失问题依然存在。
代码示例:
import numpy as np
import matplotlib.pyplot as plt
def tanh(x):return np.tanh(x)x = np.linspace(-10, 10, 100)
y = tanh(x)plt.plot(x, y)
plt.title("Tanh Activation Function")
plt.xlabel("x")
plt.ylabel("tanh(x)")
plt.grid()
plt.show()
运行结果:
3. ReLU(Rectified Linear Unit)激活函数
公式:
f(x) = max(0, x)
特点:
- 输出范围为 [0, +∞)。
- 优点:
- 简单高效,计算速度快。
- 解决了梯度消失问题,几乎是所有深度学习模型的默认选择。
- 缺点:
- “死亡神经元”:当输入总是小于 0 时,梯度为 0,神经元可能永远不会被激活。
代码示例:
import numpy as np
import matplotlib.pyplot as pltdef relu(x):return np.maximum(0, x)x = np.linspace(-10, 10, 100)
y = relu(x)plt.plot(x, y)
plt.title("ReLU Activation Function")
plt.xlabel("x")
plt.ylabel("ReLU(x)")
plt.grid()
plt.show()
运行结果:
4. Leaky ReLU 激活函数
公式:
其中,α 是一个小于 1 的常数,通常取 0.01。
特点:
- 优点:
- 解决 ReLU 的“死亡神经元”问题。
- 在负数输入上具有小的线性斜率。
- 缺点:
- 引入了超参数 α,需手动调节。
代码示例:
import numpy as np
import matplotlib.pyplot as plt
def leaky_relu(x, alpha=0.01):return np.where(x > 0, x, alpha * x)x = np.linspace(-10, 10, 100)
y = leaky_relu(x)plt.plot(x, y)
plt.title("Leaky ReLU Activation Function")
plt.xlabel("x")
plt.ylabel("Leaky ReLU(x)")
plt.grid()
plt.show()
运行结果:
5. ELU(Exponential Linear Unit)激活函数
公式:
其中,α 通常取 1。
特点:
- 优点:
- 负数部分平滑处理,有助于减少梯度消失问题,训练更稳定。
- 能加速模型收敛。
- 缺点:
- 计算复杂度稍高。
代码示例:
import numpy as np
import matplotlib.pyplot as plt
def elu(x, alpha=1.0):return np.where(x > 0, x, alpha * (np.exp(x) - 1))x = np.linspace(-10, 10, 100)
y = elu(x)plt.plot(x, y)
plt.title("ELU Activation Function")
plt.xlabel("x")
plt.ylabel("ELU(x)")
plt.grid()
plt.show()
运行结果:
6. Softmax 激活函数
公式:
特点:
- 将输入映射为概率分布,适用于多分类问题,常用于多分类问题的最后一层。
- 输出范围为 (0, 1),且总和为 1。
代码示例:
import numpy as npdef softmax(x):exp_x = np.exp(x - np.max(x)) # 防止数值溢出return exp_x / np.sum(exp_x)# 示例
x = np.array([1.0, 2.0, 3.0, 6.0])
y = softmax(x)print("Softmax Output:", y)
print("Sum of Softmax Output:", np.sum(y)) # 确保总和为 1
运行结果:
Softmax Output: [0.00626879 0.01704033 0.04632042 0.93037047]
Sum of Softmax Output: 1.0
7. Swish 激活函数
公式:
其中,β 是可学习参数,通常默认为 1。
特点:
- 优点:
- 平滑可微,能捕获复杂特征。
- 在深度网络中比 ReLU 表现更优。
代码示例:
import numpy as np
import matplotlib.pyplot as pltdef sigmoid(x):return 1 / (1 + np.exp(-x))
def swish(x, beta=1.0):return x * sigmoid(beta * x)x = np.linspace(-10, 10, 100)
y = swish(x)plt.plot(x, y)
plt.title("Swish Activation Function")
plt.xlabel("x")
plt.ylabel("Swish(x)")
plt.grid()
plt.show()
运行结果:
2. 激活函数的选择与应用
任务导向的选择:
- 分类问题:
- 二分类:Sigmoid 或 Softmax。
- 多分类:Softmax。
- 回归问题:
- 深度学习(卷积网络、RNN 等):
- 通常采用 ReLU 及其变种(Leaky ReLU、ELU)。
层次结构的选择:
- 隐藏层:
- 一般使用 ReLU 或其变种。
- 输出层:
- 分类:Softmax 或 Sigmoid。
- 回归:线性激活函数。
3.激活函数对比总结
激活函数 | 输出范围 | 是否有梯度消失 | 是否有“死亡神经元” | 常见应用场景 |
---|---|---|---|---|
Sigmoid | (0, 1) | 是 | 否 | 二分类输出 |
Tanh | (-1, 1) | 是 | 否 | RNN 或零均值数据 |
ReLU | [0, +∞) | 否 | 是 | 深层网络的隐藏层 |
Leaky ReLU | (−∞, +∞) | 否 | 否 | 深层网络 |
ELU | (−α, +∞) | 否 | 否 | 深度网络 |
Softmax | (0, 1) | 否 | 否 | 多分类输出层 |
Swish | (−∞, +∞) | 否 | 否 | 深度网络或复杂任务 |
通过结合理论和代码示例,可以根据任务特点选择合适的激活函数以优化模型性能。