深度学习:(六)激活函数的选择与介绍

embedded/2024/9/23 17:42:49/

激活函数

之前使用的 a = σ ( z ) a=\sigma(z) a=σ(z) ,其中 σ ( ) \sigma(~) σ( ) 便是激活函数。

在神经网络中,不同层的激活函数可以不同。

在学习中,一般以 g ( z ) g(z) g(z) 来表示激活函数。

为什么需要(线性)激活函数?

不需要激活函数就等同于使用线性激活函数 g ( z ) = z g(z)=z g(z)=z (恒等激活函数),那么使用单个样本下的双层网络代码就为:
G i v e n i n p u t x : a [ 0 ] = x z [ 1 ] = W [ 1 ] a [ 0 ] + b [ 1 ] a [ 1 ] = z [ 1 ] z [ 2 ] = W [ 2 ] a [ 1 ] + b [ 2 ] a [ 2 ] = z [ 2 ] \begin{align*} &Given~~input~~x:\\ &~~~~~~~~a^{[0]}=x\\ &~~~~~~~~z^{[1]}=W^{[1]}a^{[0]}+b^{[1]}\\ &~~~~~~~~a^{[1]}=z^{[1]}\\ &~~~~~~~~z^{[2]}=W^{[2]}a^{[1]}+b^{[2]}\\ &~~~~~~~~a^{[2]}=z^{[2]} \end{align*} Given  input  x:        a[0]=x        z[1]=W[1]a[0]+b[1]        a[1]=z[1]        z[2]=W[2]a[1]+b[2]        a[2]=z[2]
将最后的结果展开,则 a [ 2 ] = z [ 2 ] = W [ 2 ] ( W [ 1 ] a [ 0 ] + b [ 1 ] ) + b [ 2 ] = ( W [ 2 ] W [ 1 ] ) a [ 0 ] + W [ 2 ] b [ 1 ] + b [ 2 ] a^{[2]}=z^{[2]}=W^{[2]}(W^{[1]}a^{[0]}+b^{[1]})+b^{[2]}=(W^{[2]}W^{[1]})a^{[0]}+W^{[2]}b^{[1]}+b^{[2]} a[2]=z[2]=W[2](W[1]a[0]+b[1])+b[2]=(W[2]W[1])a[0]+W[2]b[1]+b[2] ,其中 W [ 2 ] W [ 1 ] W^{[2]}W^{[1]} W[2]W[1] 可以看作 W ′ W^{'} W W [ 2 ] b [ 1 ] + b [ 2 ] W^{[2]}b^{[1]}+b^{[2]} W[2]b[1]+b[2] 可以看作 b ′ b^{'} b ,最终可等效为 a [ 2 ] = W ′ a [ 0 ] + b ′ a^{[2]}=W^{'}a^{[0]}+b^{'} a[2]=Wa[0]+b

这说明,如果没有激活函数,或者是其他线性激活函数,那么无论层数多深,总会存在与之等效的单层神经网络,那么深度学习的意义就没有了,就变成了单纯的逻辑回归了。

特例

针对回归问题,输出层可以使用线性激活函数,而隐藏层依旧不可以。

sigma函数

g ( z ) = σ ( z ) g(z)=\sigma(z) g(z)=σ(z)

公式: a = σ ( z ) = 1 1 + e − z a=\sigma(z)=\frac{1}{1+e^{-z}} a=σ(z)=1+ez1

函数图像:
在这里插入图片描述

梯度/斜率/导数:
g ′ ( z ) = d d z g ( z ) = 1 1 + e − z ( 1 − 1 1 + e − z ) = g ( z ) [ 1 − g ( z ) ] \begin{align*} g^{'}(z)=\frac{d}{dz}g(z)&=\frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}})\\ &=g(z)[1-g(z)] \end{align*} g(z)=dzdg(z)=1+ez1(11+ez1)=g(z)[1g(z)]
导数图像:
在这里插入图片描述

使用:在**二元分类**问题上(输出层的结果为0~1),输出层的激活函数可以使用sigma函数。

禁用:在非二元分类问题上,禁用,即使是二元分类问题,隐藏层中也不能用。

缺点: z z z 非常大或者非常小时, σ ( z ) \sigma(z) σ(z) 函数的梯度(斜率)会很小,会形成梯度消失问题,从而拖慢梯度下降算法。

双曲正切函数

g ( z ) = t a n h ( z ) g(z)=tanh(z) g(z)=tanh(z)

公式: a = t a n h ( z ) = e z − e − z e z + e − z a=tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}} a=tanh(z)=ez+ezezez

函数图像:
在这里插入图片描述

优点:可达到“数据中心化”的效果,即数据平均值接近 0 0 0

缺点:① 二元分类问题上(输出层的结果为0~1),输出层不能用。

​ ② z z z 非常大或者非常小时, t a n h ( z ) tanh(z) tanh(z) 函数的梯度(斜率)会很小,会形成梯度消失问题,从而拖慢梯度下降算法。

梯度/斜率/导数:
g ′ ( z ) = d d z g ( z ) = 1 − g 2 ( z ) \begin{align*} g^{'}(z)=\frac{d}{dz}g(z)=1-g^{2}(z) \end{align*} g(z)=dzdg(z)=1g2(z)
导数图像:
在这里插入图片描述

线性修正单元(ReLU)

g ( z ) = R e L U ( z ) g(z)=ReLU(z) g(z)=ReLU(z)

现在已经变成隐层激活函数的默认选择了。

公式: a = R e L U ( z ) = m a x { 0 , z } a=ReLU(z)=max\{0,z\} a=ReLU(z)=max{0,z}

函数图像:
在这里插入图片描述

P.S.: z = 0 z=0 z=0 这一点的导数不存在,但在编程中,刚好 z = 0 z=0 z=0 的概率非常之低,所以不用担心。或者自己可以给 z = 0 z=0 z=0 点的导数赋值。

**注意:**ReLU并不是线性激活函数,其导数并不是在全域都为恒定值。

梯度/斜率/导数:
g ′ ( z ) = { 0 , if  z < 0 1 , if  z ≥ 0 \begin{align*} g^{'}(z)=\begin{cases} 0, & \text {if $z<0$}\\ 1, & \text {if $z≥0$}\\ \end{cases} \end{align*} g(z)={0,1,if z<0if z0
z = 0 z=0 z=0 处的导数,可以人为定义成 1 1 1 0 0 0

导数图像:
在这里插入图片描述

带泄露ReLU(Leaky ReLU)

g ( z ) = L e a k y R e L U ( z ) g(z)=Leaky~ReLU(z) g(z)=Leaky ReLU(z)

公式: a = L e a k y R e L U ( z ) = m a x { b ⋅ z , z } a=Leaky~ReLU(z)=max\{b·z,z\} a=Leaky ReLU(z)=max{bz,z} b b b 可以取 0.01 0.01 0.01

函数图像:
在这里插入图片描述

梯度/斜率/导数:
g ′ ( z ) = { 0.01 , if  z < 0 1 , if  z ≥ 0 \begin{align*} g^{'}(z)=\begin{cases} 0.01, & \text {if $z<0$}\\ 1, & \text {if $z≥0$}\\ \end{cases} \end{align*} g(z)={0.01,1,if z<0if z0
z = 0 z=0 z=0 处的导数,可以人为定义成 1 1 1 0.01 0.01 0.01

导数图像:
在这里插入图片描述


http://www.ppmy.cn/embedded/115710.html

相关文章

C#基础(13)结构体

前言 随着函数的讲解完成&#xff0c;我想你已经初步有了写一些复杂逻辑功能的能力&#xff0c;但是我们会发现其实在我们大部分实际开发情况中&#xff0c;很多我们需要写的变量可能不只有一个属性。 他可能有很多变量&#xff0c;那这时候我们如果要把这些变量集中到一个东…

【machine learning-12-多元线性回归】

线性回归-多特征 多特征线性回归多特征表示更简单的多元线性回归表示方法 之前节的线性回归为简化都是用的单特征&#xff0c;但现实中我们的预测因素很复杂不可能只有一个特征&#xff0c;下面总结多特征线性回归 多特征 之前总是用房价举例&#xff0c;预测房价和房屋面积的…

stm32单片机个人学习笔记7(TIM定时中断)

前言 本篇文章属于stm32单片机&#xff08;以下简称单片机&#xff09;的学习笔记&#xff0c;来源于B站教学视频。下面是这位up主的视频链接。本文为个人学习笔记&#xff0c;只能做参考&#xff0c;细节方面建议观看视频&#xff0c;肯定受益匪浅。 STM32入门教程-2023版 细…

【Python机器学习】NLP信息提取——值得提取的信息

目录 提取GPS信息 提取日期 如下一些关键的定量信息值得“手写”正则表达式&#xff1a; GPS位置&#xff1b;日期&#xff1b;价格&#xff1b;数字。 和上述可以通过正则表达式轻松捕获的信息相比&#xff0c;其他一些重要的自然语言信息需要更复杂的模式&#xff1a; 问…

【JAVA入门】Day47 - 线程

【JAVA入门】Day47 - 线程 文章目录 【JAVA入门】Day47 - 线程一、并发和并行二、多线程的实现方式2.1 继承 Thread 类的方式2.2 实现 Runnable 接口的方式2.3 利用 Callable 接口实现 三、Thread 类中常见的成员方法四、线程的调度和优先级4.1 抢占式调度4.2 优先级4.3 守护线…

【开源免费】基于SpringBoot+Vue.JS服装商城系统(JAVA毕业设计)

本文项目编号 T 046 &#xff0c;文末自助获取源码 \color{red}{T046&#xff0c;文末自助获取源码} T046&#xff0c;文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 新…

旷视轻量化网络shufflenet算法解读

目录 预备知识 1. 回顾MobileNet V1的核心思想---深度可分离卷积 2.ShuffleNet主要有两个创新点 2.1 分组卷积与11分组卷积 2.2 channel Shuffle&#xff08;通道重排&#xff09; 2.3 通道重排过程 3. ShuffleNet网络结构 3.1 ShuffleNet unit 3.2 不同分组数的Shu…

调用系统的录音设备提示:line with format PCM_SIGNED 16000.0 Hz

javax.sound.sampled.LineUnavailableException: line with format PCM_SIGNED 16000.0 Hz, 8 bit, mono, 1 bytes/frame, not supported. 打开 设置->隐私->麦克风->允许应用访问你的麦克风 与 16000Hz没关系 与 16000Hz没关系 与 16000Hz没关系