【漫话机器学习系列】078.如何选择隐藏单元激活函数（How To Choose Hidden Unit Activation Functions）

【漫话机器学习系列】078.如何选择隐藏单元激活函数（How To Choose Hidden Unit Activation Functions）

embedded/2025/2/4 5:27:20/

选择隐藏单元激活函数是神经网络设计中的一个重要步骤，它直接影响到模型的学习能力和训练效果。不同的激活函数具有不同的性质和适用场景，因此在选择时需要根据模型的需求和问题的特性来决定。以下是一些常见的激活函数及其选择依据：

1. Sigmoid 激活函数

公式：

优点：

传统且广泛使用，尤其是在二分类问题的输出层。
输出值在 0 到 1 之间，可以用于概率估计。

缺点：

梯度消失问题：当输入值较大或较小时，梯度几乎为零，导致梯度下降更新缓慢。
非零中心：输出的范围是 (0, 1)，这可能会导致训练时的梯度下降不够高效。

使用场景：

当输出值需要在 (0, 1) 范围内时，如二分类问题的输出层。
在较简单的模型中可以使用，但通常对于深度神经网络效果较差。

2. Tanh 激活函数

公式：

优点：

输出值在 -1 到 1 之间，中心是零，能够使数据更加平衡，从而帮助加速训练。
相比 Sigmoid，Tanh 的梯度在较大范围内依然有效，避免了梯度消失的问题。

缺点：

梯度消失问题：对于非常大的输入值，梯度仍然会趋近于零。
计算开销较大，因为需要进行指数运算。

使用场景：

用于较为复杂的神经网络，尤其是在隐藏层中。
在一些深度学习应用中，Tanh 比 Sigmoid 更常用。

3. ReLU (Rectified Linear Unit) 激活函数

公式：

优点：

计算非常简单，且训练速度较快。
能够解决梯度消失问题，特别是在正值区域中，梯度为常数 1。
更适合深层神经网络，通常能够更快收敛。

缺点：

死神经元问题：当输入值为负时，输出为 0，梯度也为 0，这会导致神经元无法更新，造成所谓的“死神经元”现象。
在一些情况下，ReLU 会导致过多的神经元输出为零，影响模型表现。

使用场景：

现代深度学习中，尤其是在卷积神经网络（CNN）和全连接层中广泛使用。
对于大多数任务，ReLU 通常是首选激活函数。

4. Leaky ReLU

公式：

其中 α 是一个小常数。

优点：

解决了 ReLU 的死神经元问题，在负输入区域也能提供一个小的梯度。
对于深层网络中的训练，能够提升性能。

缺点：

仍然有一定的梯度消失问题，尤其是在较大的负输入值时。
α 的选择需要进行调优。

使用场景：

当 ReLU 出现死神经元问题时，可以使用 Leaky ReLU。
在较为复杂的深度神经网络中，Leaky ReLU 可以避免训练过程中出现大规模的死神经元。

5. ELU (Exponential Linear Unit) 激活函数

公式：

优点：

对负输入提供了平滑的非零输出，避免了死神经元问题。
相比 ReLU，ELU 在负区间的响应较为平滑，有助于模型的泛化能力。

缺点：

计算开销相对较大。
超参数 α 需要调优。

使用场景：

当需要对负值输入进行平滑处理，或避免死神经元问题时使用。
在深度神经网络中，尤其是需要稳定性和泛化能力时，ELU 是一个不错的选择。

6. Swish 激活函数

公式：

其中 σ(x) 是 Sigmoid 函数。

优点：

近年来被认为比 ReLU 更有效，能够在训练中提供更好的性能。
对于大多数任务，Swish 在深度神经网络中能够提供更高的准确性。

缺点：

计算开销相对较大，因为需要计算 Sigmoid。

使用场景：

在一些深度学习的应用中，Swish 作为一个现代激活函数，有望提升模型的表现，尤其是在深层网络中。

总结：如何选择合适的激活函数

选择合适的隐藏层激活函数通常取决于以下因素：

任务的复杂性：
- 对于较简单的问题，Sigmoid 或 Tanh 可能已经足够。
- 对于复杂的深度学习任务，ReLU 或其变种（Leaky ReLU, ELU）通常更合适。
网络深度：
- 对于深度神经网络，ReLU 及其变种（Leaky ReLU, ELU）因其能够避免梯度消失问题而成为首选。
计算性能：
- 如果计算速度是关键考虑因素，ReLU 是一个非常快速的选择。
- 如果模型需要较复杂的特性（如平滑的输出），Swish 和 ELU 可能更合适。
死神经元问题：
- 如果使用 ReLU 时遇到死神经元问题，可以考虑 Leaky ReLU 或 ELU。
任务类型：
- 对于分类任务，输出层常用 Softmax 或 Sigmoid。
- 对于回归任务，输出层通常不使用激活函数（或使用线性激活）。

在实践中，建议通过实验进行调优，比较不同激活函数的性能，并选择适合具体任务的激活函数。

http://www.ppmy.cn/embedded/159378.html

相关文章

[论文阅读] (37)CCS21 DeepAID：基于深度学习的异常检测（解释）

[论文阅读] (37)CCS21 DeepAID：基于深度学习的异常检测（解释）

祝大家新春快乐，蛇年吉祥！ 《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座，并分享给大家，希望您喜欢。由于作者的英文水平和学术能力不高，需要不断提升，所以还请大家批评指正&#xff0…

阅读更多...

基于FPGA的BT1120编解码

基于FPGA的BT1120编解码

BT1120与BT656 类似 BT1120与BT656同类属于一个视频协议，两者无论从组成、协议、同步码以及传输过程都是十分相似： 1、两者都是以F（场）、V（帧）、H（消隐）、D（有效）来区分数据的内容。 2、两者的传输数据都采用一样的方式，即内同步传输数据。 3、两者都传输的数据都是…

阅读更多...

机器学习笔记——特征工程

机器学习笔记——特征工程

大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。文章目录特征工程（Fzeature Engineering）1. 特征提取&#xff…

阅读更多...

记8（高级API实现手写数字识别

记8（高级API实现手写数字识别

目录 1、Keras：2、Sequential模型：2.1、建立Sequential模型：modeltf.keras.Sequential()2.2、添加层：model.add(tf.keras.layers.层)2.3、查看摘要：model.summary()2.4、配置训练方法：model.compile(loss,o…

阅读更多...

【深度学习】softmax回归的从零开始实现

【深度学习】softmax回归的从零开始实现

softmax回归的从零开始实现 (就像我们从零开始实现线性回归一样，)我们认为softmax回归也是重要的基础，因此(应该知道实现softmax回归的细节)。本节我们将使用Fashion-MNIST数据集，并设置数据迭代器的批量大小为256。 import torch from IP…

阅读更多...

NLP模型大对比：Transformer ＞Seq2Seq ＞ LSTM ＞ RNN ＞ n-gram

NLP模型大对比：Transformer ＞Seq2Seq ＞ LSTM ＞ RNN ＞ n-gram

结论 Transformer 大于传统的Seq2Seq 大于 LSTM 大于 RNN 大于传统的n-gram n-gram VS Transformer 我们可以用一个图书馆查询的类比来解释它们的差异： 一、核心差异对比维度n-gram 模型Transformer工作方式固定窗口的"近视观察员"全局关联的&q…

阅读更多...

gradle和maven的区别以及怎么选择使用它们

gradle和maven的区别以及怎么选择使用它们

目录区别 1. 配置方式 2. 依赖管理 3. 构建性能 4. 灵活性和扩展性 5. 多项目构建如何选择使用选择 Maven 的场景选择 Gradle 的场景区别 1. 配置方式 Maven： 使用基于 XML 的 pom.xml 文件进行配置。所有的项目信息、依赖管理、构建插件等都在这个文…

阅读更多...

Python-基于PyQt5,wordcloud,pillow,numpy,os,sys等的智能词云生成器(最终版)

Python-基于PyQt5,wordcloud,pillow,numpy,os,sys等的智能词云生成器(最终版)

前言：日常生活中，我们有时后就会遇见这样的情形：我们需要将给定的数据进行可视化处理，同时保证呈现比较良好的量化效果。这时候我们可能就会用到词云图。词云图（Word cloud）又称文字云，是一种文本数据的图片视觉表达方式，一般是由词汇组成类似云的图形，用于展示大量文…

阅读更多...

最新文章