机器学习——第五章

1 神经元模型

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。
神经元模型是神经网络中最基本的成分。
M-P神经元模型如下：
在这个模型中,神经元接收到来自几个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的值进行比较，然后通过激活函数处理以产生神经元的输出
在这里插入图片描述
理想中的激活函数是阶跃函数，将输入值映射为输出值0或1。由于阶跃函数的不连续，不光滑等不好的性质，实际用Sigmoid函数作为激活函数，Sigmoid函数将较大范围内变化的输入值映射到（0，1）输出值范围内。
在这里插入图片描述
多个神经元按照层次来连接起来，得到了神经网络。

2 感知机与多层网络

感知机由两层神经元组成，输入层接受外界输入信号后传递给输出层，输出层是M-P神经元（阈值逻辑单元）。
感知机能实现逻辑与或非运算，给定训练数据集，权重 $w_i$ 以及阈值 $\theta$ 可通过学习得到。阈值 $\theta$ 可看作一个固定输入为-1.0的哑结点所对应的连接权重 $w_{n+1}$ 。感知机的学习规则，对训练样例(x,y)，若当前感知机的输出为 $\widehat{y}$ ，则感知机权重调整为：
$w_i\gets w_i+\triangle wi$
$\triangle wi=\eta (y-\widehat{y})x_i$ 。
其中 $\eta$ 称为学习率。
注意：感知机只有输出层神经元进行激活函数处理，只拥有一层功能神经元，学习能力有限。
若两类模式是线性可分的，即为存在一个线性超平面将他们分开，感知机的学习过程一定会收敛而求得适当的权向量w，否则感知机学习过程将会发生振荡，w难以稳定，不能求得合适解。

解决非线性可分问题，需要使用多层功能神经元。

多层前馈神经网络：每层神经元与下一层神经元全互联，神经元之间不存在同层连接和跨层连接。输入层神经元仅接受输入，不进行函数处理，隐含层和输出层包含功能神经元。
在这里插入图片描述

3 误差逆传播算法（BP）

可适用于多种类型的神经网络。一般BP网络指BP算法训练的多层前馈神经网络。

在这里插入图片描述
如上图中的网络需要确定 $(d + l + 1) q + l$ 个参数，其中：输入层到隐层的 $d * q$ 个权值、隐层到输出层的 $q * l$ 个权值、 $q$ 个隐层神经元的值、1个输出层神经元的阈值。
对训练例子 $x_k,y_k)$ ，假定神经网络的输出为 $\widehat{y}_k$ ，即 $\widehat{y}_j^k=f(\beta_j-\theta_j)$ ，
则网络在 $x_k,y_k)$ 上的均方误差为
$E_k=\frac{1}{2}\sum_{j=1}^{l}(\widehat{y}_j^k-y_j^k)^2$

BP是一个迭代学习算法，再迭代的每一轮中采用广义的感知机学习规则对参数进行更新估计。参数v的更新估计式为：
$v\gets v+ \triangle v$ .
BP算法基于梯度下降策略，以目标的负梯度方向对参数进行调整。
学习率 $\eta$ 控制算法每一轮迭代的更新步长，太大容易振荡，太小收敛过慢。BP算法工作流程如下：先将输入示例提供给输入层神经元,然后逐层将信号前传,直到产生输出层的结果;然后计算输出层的误差(第4-5行),再将误差逆向传播至隐层神经元(第6行),最后根据隐层神经元的误差来对连接权和值进行调整(第7行)该迭代过程循环进行,直到达到某些停止条件为止。
在这里插入图片描述
如果推导出基于累积误差最小化的更新规则，就可得到累积误差逆传播算法。
标准BP算法每次更新只针对单个样例，对不同样例进行更新的效果可能出现抵消现象。
BP神经网络经常过拟合，有两种策略可以缓解BP网络的过拟合
1.早停：数据分为训练集和验证集，若训练集误差降低但验证集误差升高，停止训练，同时返回具有最小验证集误差的连接权和阈值。
2.正则化：在误差目标函数中增加一个用于描述网络复杂度的部分。

4 全局最小与局部极小

用E表示神经网络在训练集上的误差，它是关于连接权w和阈值 $\theta$ 的函数，神经网络的训练过程可看作一个参数寻优过程，在参数空间中，寻找一组最优参数使E最小。

"局部极小"和 “全局最小”.。对 $w^{*}$ 和 $\theta^{*}$ , 若存在 $\epsilon>0$ 使得

$\forall(\boldsymbol{w} ; \theta) \in\left\{(\boldsymbol{w} ; \theta) \mid\left\|(\boldsymbol{w} ; \theta)-\left(\boldsymbol{w}^{*} ; \theta^{*}\right)\right\| \leqslant \epsilon\right\}$ ,

都有 $E(\boldsymbol{w} ; \theta) \geqslant E\left(\boldsymbol{w}^{*} ; \theta^{*}\right)$ 成立, 则 $\left(\boldsymbol{w}^{*} ; \theta^{*}\right)$ 为局部极小解;
若对参数空间中的任意 $(\boldsymbol{w} ; \theta)$ 都有 $E(\boldsymbol{w} ; \theta) \geqslant E\left(\boldsymbol{w}^{*}, \theta^{*}\right)$ , 则 $\left(\boldsymbol{w}^{*} ; \theta^{*}\right)$ 为全局最小解。

参数空间内梯度为零的点,只要其误差函数值小于邻点的误差函数值,就是局部极小点;可能存在多个局部极小值,但却只会有一个全局最小值。

基于梯度的搜索是使用最广泛的参数寻优方法。从某些初始解出发，迭代寻找最优参数值，每次迭代，先计算误差函数在当前点梯度，然后根据梯度确定搜索方向。
在这里插入图片描述
如何跳出局部极小，而找到全局极小，有以下策略：
1.以多组不同参数值初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数。
2.使用模拟退火技术，模拟退火在每一步都以一定的概率接受比当前解更差的结果，从而有助于找到全局极小。
3.使用随机梯度下降。

遗传算法也常用来训练神经网络来更好逼近全局最小。

5 其他常见神经网络

5.1 RBF网络

一种单隐层前馈神经网络，使用径向基函数作为隐层神经元激活函数，输出层是对隐层神经元输出的线性组合。
该网络可表示为：
$\varphi(x)=\sum_{i=1}^{q}w_i\rho(x,c_i)$ 。
其中 $q$ 是隐层神经元个数， $c_i和w_i$ 分别是第i个神经元对应的中心和权重， $\rho(x,c_i)$ 是径向基函数，定义为样本x到数据中心 $c_i$ 之间欧氏距离的单调函数。

训练步骤：
1.确定神经元中心 $c_i$ 。方法有随机采样，聚类等。
2.利用BP算法等确定参数 $w_i和\beta_i$

5.2 ART网络

竞争型学习：神经网络中一种常用的无监督学习策略，网络中输出神经元相互竞争，每一时刻只有一个竞争获胜的神经元被激活，其他神经元的状态被抑制。
ART网络是竞争型学习的重要代表，由比较层，识别层，识别阈值和重置模块构成。比较层负责接收输入样本,并将其传递给识别层神经元.识别层每个神经元对应一个模式类,神经元数目可在训练过程中动态增长以增加新的模式类。在接收到比较层的输入信号后，识别层神经元之间相互竞争产生获胜神经元。

对于ART网络的性能，识别阈值影响很大，识别阈值过高，输入样本将会分为多且精细的模式类，识别阈值较低，会产生少且粗略的模式类。

ART网络优点：可进行增量学习或在线学习。