机器学习周志华学习笔记-第5章＜神经网络＞

学习>机器学习周志华学习笔记-第5章<神经网络>

卷王，请看目录

5模型的评估与选择
- 5.1 神经元模型
- 5.2 感知机与多层网络
- - - 5.3 BP(误逆差)神经网络算法
- 5.4常见的神经网络
- - - 5.4.1 RBF网络（Radial Basis Function Network，径向基函数网络）
    - 5.4.2 ART网络（Adaptive Resonance Theory Network，自适应共振理论网络）
    - 5.4.3 SOM网络（Self-Organizing Map，自组织映射网络）
    - 5.4.4 级联相关网络（Cascade Correlation Network
    - 5.4.5 Elman网络（Elman Network）
    - 5.4.6. Boltzmann机（Boltzmann Machine）
- 5.5 全局最小与局部最小
- 5.6 深度学习

在学习>机器学习中，神经网络一般指的是“神经网络学习”，是学习>机器学习与神经网络两个学科的交叉部分。所谓神经网络，目前用得最广泛的一个定义是“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”。

5模型的评估与选择

在学习>机器学习中，神经网络一般指的是“神经网络学习”，是学习>机器学习与神经网络两个学科的交叉部分。所谓神经网络，目前用得最广泛的一个定义是“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”。

5.1 神经元模型

神经网络中最基本的单元是神经元模型（neuron）。在生物神经网络的原始机制中，每个神经元通常都有多个树突（dendrite），一个轴突（axon）和一个细胞体（cell body），树突短而多分支，轴突长而只有一个；在功能上，树突用于传入其它神经元传递的神经冲动，而轴突用于将神经冲动传出到其它神经元，当树突或细胞体传入的神经冲动使得神经元兴奋时，该神经元就会通过轴突向其它神经元传递兴奋。

一直沿用至今的“M-P神经元模型”正是对这一结构进行了抽象，也称“阈值逻辑单元”，其中树突对应于输入部分，每个神经元收到n个其他神经元传递过来的输入信号，这些信号通过带权重的连接传递给细胞体，这些权重又称为连接权（connection weight）。细胞体分为两部分，前一部分计算总输入值（即输入信号的加权和，或者说累积电平），后一部分先计算总输入值与该神经元阈值的差值，然后通过激活函数（activation function）的处理，产生输出从轴突传送给其它神经元。M-P神经元模型如下图所示：
在这里插入图片描述
与线性分类十分相似，神经元模型最理想的激活函数也是阶跃函数，即将神经元输入值与阈值的差值映射为输出值1或0，若差值大于零输出1，对应兴奋；若差值小于零则输出0，对应抑制。但阶跃函数不连续，不光滑，故在M-P神经元模型中，也采用Sigmoid函数来近似， Sigmoid函数将较大范围内变化的输入值挤压到 (0,1) 输出值范围内，所以也称为挤压函数（squashing function）。
在这里插入图片描述
将多个神经元按一定的层次结构连接起来，就得到了神经网络。它是一种包含多个参数的模型，比方说10个神经元两两连接，则有100个参数需要学习（每个神经元有9个连接权以及1个阈值），若将每个神经元都看作一个函数，则整个神经网络就是由这些函数相互嵌套而成。

5.2 感知机与多层网络

感知机（Perceptron）是由两层神经元组成的一个简单模型，但只有输出层是M-P神经元，即只有输出层神经元进行激活函数处理，也称为功能神经元（functional neuron）；输入层只是接受外界信号（样本属性）并传递给输出层（输入层的神经元个数等于样本的属性数目），而没有激活函数。这样一来，感知机与之前线性模型中的对数几率回归的思想基本是一样的，都是通过对属性加权与另一个常数求和，再使用sigmoid函数将这个输出值压缩到0-1之间，从而解决分类问题。不同的是感知机的输出层应该可以有多个神经元，从而可以实现多分类问题，同时两个模型所用的参数估计方法十分不同。
给定训练集，则感知机的n+1个参数（n个权重+1个阈值）都可以通过学习得到。阈值Θ可以看作一个输入值固定为-1的哑结点的权重ωn+1，即假设有一个固定输入xn+1=-1的输入层神经元，其对应的权重为ωn+1，这样就把权重和阈值统一为权重的学习了。简单感知机的结构如下图所示：
在这里插入图片描述
感知机权重的学习规则如下：对于训练样本（x，y），当该样本进入感知机学习后，会产生一个输出值，若该输出值与样本的真实标记不一致，则感知机会对权重进行调整，若激活函数为阶跃函数，则调整的方法为（基于梯度下降法）：
在这里插入图片描述
其中 η∈（0，1）称为学习率，可以看出感知机是通过逐个样本输入来更新权重，首先设定好初始权重（一般为随机），逐个地输入样本数据，若输出值与真实标记相同则继续输入下一个样本，若不一致则更新权重，然后再重新逐个检验，直到每个样本数据的输出值都与真实标记相同。容易看出：感知机模型总是能将训练数据的每一个样本都预测正确，和决策树模型总是能将所有训练数据都分开一样，感知机模型很容易产生过拟合问题。

由于感知机模型只有一层功能神经元，因此其功能十分有限，只能处理线性可分的问题，对于这类问题，感知机的学习过程一定会收敛（converge），因此总是可以求出适当的权值。但是对于像书上提到的异或问题，只通过一层功能神经元往往不能解决，因此要解决非线性可分问题，需要考虑使用多层功能神经元，即神经网络。多层神经网络的拓扑结构如下图所示：
在这里插入图片描述
在神经网络中，输入层与输出层之间的层称为隐含层或隐层（hidden layer），隐层和输出层的神经元都是具有激活函数的功能神经元。只需包含一个隐层便可以称为多层神经网络，常用的神经网络称为“多层前馈神经网络”（multi-layer feedforward neural network），该结构满足以下几个特点：

每层神经元与下一层神经元之间完全互连
神经元之间不存在同层连接
神经元之间不存在跨层连接

根据上面的特点可以得知：这里的“前馈”指的是网络拓扑结构中不存在环或回路，而不是指该网络只能向前传播而不能向后传播（下节中的BP神经网络正是基于前馈神经网络而增加了反馈调节机制）。神经网络的学习过程就是根据训练数据来调整神经元之间的“连接权”以及每个神经元的阈值，换句话说：神经网络所学习到的东西都蕴含在网络的连接权与阈值中。

5.3 BP(误逆差)神经网络算法

由上面可以得知：神经网络的学习主要蕴含在权重和阈值中，多层网络使用上面简单感知机的权重调整规则显然不够用了，BP神经网络算法即误差逆传播算法（error BackPropagation）正是为学习多层前馈神经网络而设计，BP神经网络算法是迄今为止最成功的的神经网络学习算法。
一般而言，只需包含一个足够多神经元的隐层，就能以任意精度逼近任意复杂度的连续函数[Hornik et al.,1989]，故下面以训练单隐层的前馈神经网络为例，介绍BP神经网络的算法思想。
在这里插入图片描述
上图为一个单隐层前馈神经网络的拓扑结构，BP神经网络算法也使用梯度下降法（gradient descent），以单个样本的均方误差的负梯度方向对权重进行调节。可以看出：BP算法首先将误差反向传播给隐层神经元，调节隐层到输出层的连接权重与输出层神经元的阈值；接着根据隐含层神经元的均方误差，来调节输入层到隐含层的连接权值与隐含层神经元的阈值。BP算法基本的推导过程与感知机的推导过程原理是相同的。

学习率η∈（0，1）控制着沿反梯度方向下降的步长，若步长太大则下降太快容易产生震荡，若步长太小则收敛速度太慢，一般地常把η设置为0.1，有时更新权重时会将输出层与隐含层设置为不同的学习率。BP算法的基本流程如下所示：
在这里插入图片描述
BP算法的更新规则是基于每个样本的预测值与真实类标的均方误差来进行权值调节，即BP算法每次更新只针对于单个样例。需要注意的是：BP算法的最终目标是要最小化整个训练集D上的累积误差，即：
如如果基于累积误差最小化的更新规则，则得到了累积误差逆传播算法（accumulated error backpropagation），即每次读取全部的数据集一遍，进行一轮学习，从而基于当前的累积误差进行权值调整，因此参数更新的频率相比标准BP算法低了很多，但在很多任务中，尤其是在数据量很大的时候，往往标准BP算法会获得较好的结果。另外对于如何设置隐层神经元个数的问题，至今仍然没有好的解决方案，常使用“试错法”进行调整。

前面提到，BP神经网络强大的学习能力常常容易造成过拟合问题，有以下两种策略来缓解BP网络的过拟合问题：

早停：将数据分为训练集与测试集，训练集用于学习，测试集用于评估性能，若在训练过程中，训练集的累积误差降低，而测试集的累积误差升高，则停止训练。
引入正则化（regularization）：基本思想是在累积误差函数中增加一个用于描述网络复杂度的部分，例如所有权值与阈值的平方和，其中λ∈（0,1）用于对累积经验误差与网络复杂度这两项进行折中，常通过交叉验证法来估计。

5.4常见的神经网络

以下是对这几种常见神经网络的详细介绍：

5.4.1 RBF网络（Radial Basis Function Network，径向基函数网络）

概念： RBF网络是一种前馈型神经网络，通常用于函数近似、分类、时间序列预测等问题。它以径向基函数（如高斯函数）为激活函数，旨在实现从输入到输出的非线性映射。

结构： RBF网络包含三层结构：输入层、隐藏层和输出层。

输入层： 直接接收输入信号并将其传递到隐藏层。
隐藏层： 每个节点以径向基函数为核，对输入数据进行非线性变换。隐藏层节点的输出与输入到中心的距离相关，通常采用高斯函数。
输出层： 线性加权和隐藏层的输出，生成最终的网络输出。

特点：

易于训练，因为权重只需通过线性回归计算。
隐藏层的径向基中心和宽度对网络性能至关重要。
对数据噪声敏感。

应用：
RBF网络广泛用于分类问题（如手写数字识别）、时间序列预测（如股票价格预测）、函数逼近和控制系统。

5.4.2 ART网络（Adaptive Resonance Theory Network，自适应共振理论网络）

概念： ART网络是一种具有自组织能力的神经网络，用于解决分类、聚类和模式识别问题，尤其适合处理不确定和动态变化的数据。它通过自适应共振机制控制学习过程，能够学习新模式而不遗忘旧模式。

结构： ART网络包括以下主要部分：

比较层： 接收输入信号，计算与存储类别的匹配程度。
识别层： 根据比较层的结果选择最匹配的类别。
重置机制： 当匹配不足时，触发网络调整权值或创建新类别。

特点：

能动态调整分类，不会因新数据的加入而完全遗忘旧数据（即稳定性-可塑性平衡）。
适用于大规模、非平衡、动态变化的数据集。
可通过调整阈值（共振准则）控制分类的精细程度。

应用：
广泛用于模式识别、语音处理、图像分类和知识发现等领域。

5.4.3 SOM网络（Self-Organizing Map，自组织映射网络）

概念： SOM网络是一种无监督学习的神经网络，用于将高维数据映射到低维（通常是二维）空间，同时保留数据的拓扑结构。它是一种数据聚类和可视化工具。

结构：

输入层： 接收多维输入数据。
输出层： 通常是一个二维的网格，每个节点代表一个聚类中心。
权值更新： 使用竞争学习规则，调整网格节点的权值，使其更接近输入数据。

特点：

网络节点之间存在竞争机制（获胜节点称为“激活节点”）。
使用“邻域函数”确保激活节点周围的节点也会进行权值更新，从而保留拓扑结构。
可直观展示数据的聚类特征。

应用：
用于数据降维、聚类分析、模式识别、市场细分和文本挖掘等场景。

5.4.4 级联相关网络（Cascade Correlation Network

概念： 级联相关网络是一种基于结构学习的前馈神经网络，具有动态调整结构的能力。网络会根据学习需要逐步增加隐藏层节点，以减少误差。

特点：

网络的结构在训练过程中不断调整，隐藏层节点按需添加。
每次新增节点时，其权值是通过最大化网络输出与误差减少的相关性进行调整的。
训练过程不需要反向传播，显著加快了学习速度。
因为网络的复杂性是根据数据需要决定的，因此它避免了过拟合或欠拟合问题。

应用：
适合解决非线性映射问题，包括语音识别、控制系统建模和函数逼近等。

5.4.5 Elman网络（Elman Network）

概念： Elman网络是一种递归神经网络（RNN），具有短期记忆能力，适用于处理时间序列数据和动态系统建模。它通过引入上下文层，保留先前的网络状态，以捕捉时间序列中的动态特性。

结构：

输入层： 接收时间序列的输入信号。
隐藏层： 使用激活函数处理输入信号。
上下文层： 用于存储上一时间步隐藏层的输出，形成递归结构。
输出层： 生成最终的网络输出。

特点：

具有时间记忆能力，可以建模时间序列中的依赖关系。
由于上下文层的加入，网络具有“状态意识”，适合动态场景。
训练时采用反向传播算法，需处理梯度消失问题。

应用：
广泛用于时间序列预测（如股票市场分析）、语音识别和动态系统控制等。

5.4.6. Boltzmann机（Boltzmann Machine）

概念： Boltzmann机是一种概率图模型，基于能量函数的优化，采用随机游走的方式寻找最优解。它是一种无监督学习网络，旨在捕捉数据的概率分布。

结构：

输入节点： 用于接收外部输入信号。
隐藏节点： 学习数据的隐含特征。
对称连接： 节点之间的连接权值是对称的，表示系统的能量状态。

特点：

使用概率性激活函数（如sigmoid），使其输出具有随机性。
通过能量函数（如负对数似然）优化网络权值。
训练复杂，因其需要反复采样以估计概率分布。

应用：
主要用于特征学习、组合优化问题以及推荐系统的预处理阶段。

5.5 全局最小与局部最小

使得累积经验误差最小的权值与阈值，在谈到最优时，一般会提到局部极小（local minimum）和全局最小（global minimum）。

局部极小解：参数空间中的某个点，其邻域点的误差函数值均不小于该点的误差函数值。
全局最小解：参数空间中的某个点，所有其他点的误差函数值均不小于该点的误差函数值。
模型学习的过程实质上就是一个寻找最优参数的过程，例如BP算法试图通过最速下降来寻找。

要成为局部极小点，只要满足该点在参数空间中的梯度为零。局部极小可以有多个，而全局最小只有一个。全局最小一定是局部极小，但局部最小却不一定是全局最小。

显然在很多学习>机器学习算法中，都试图找到目标函数的全局最小。梯度下降法的主要思想就是沿着负梯度方向去搜索最优解，负梯度方向是函数值下降最快的方向，若迭代到某处的梯度为0，则表示达到一个局部最小，参数更新停止。因此在现实任务中，通常使用以下策略尽可能地去接近全局最小：

以多组不同参数值初始化多个神经网络，按标准方法训练，迭代停止后，取其中误差最小的解作为最终参数。
使用“模拟退火”技术，在每一步都以一定的概率接受比当前解更差的结果,从而有助于“跳出”局部极小.在每步迭代过程中,接受“次优解”的概率要随着时间的推移而逐渐降低，从而保证算法稳定.
使用随机梯度下降，即在计算梯度时加入了随机因素，使得在局部最小时，计算的梯度仍可能不为0，从而迭代可以继续进行。

5.6 深度学习

理论上，参数越多，模型复杂度就越高，容量（capability）就越大，从而能完成更复杂的学习任务。深度学习（deep learning）正是一种极其复杂而强大的模型。

怎么增大模型复杂度呢？两个办法，一是增加隐层的数目，二是增加隐层神经元的数目。前者更有效一些，因为它不仅增加了功能神经元的数量，还增加了激活函数嵌套的层数。但是对于多隐层神经网络，经典算法如标准BP算法往往会在误差逆传播时发散（diverge），无法收敛达到稳定状态。
那要怎么有效地训练多隐层神经网络呢？一般来说有以下两种方法：

无监督逐层训练（unsupervised layer-wise training）：每次训练一层隐节点，把上一层隐节点的输出当作输入来训练，本层隐结点训练好后，输出再作为下一层的输入来训练，这称为预训练（pre-training）。全部预训练完成后，再对整个网络进行微调（fine-tuning）训练。一个典型例子就是深度信念网络（deep belief network，简称DBN）。这种做法其实可以视为把大量的参数进行分组，先找出每组较好的设置，再基于这些局部最优的结果来训练全局最优。
权共享（weight sharing）：令同一层神经元使用完全相同的连接权，典型的例子是卷积神经网络（Convolutional Neural Network，简称CNN）。这样做可以大大减少需要训练的参数数目。

在这里插入图片描述
所示,网络输入是一个 32x32的手写数字图像,输出是其识别结果,CNN 复合多个“卷积层”和“采样层”对输入信号进行加工,然后在连接层实现与输出目标之间的映射.每个卷积层都包含多个特征映射(feature map),每个特征映射是一个由多个神经元构成的“平面”,通过一种卷积滤波器提取输入的一种特征.例如,图5.15中第一个卷积层由6个特征映射构成,每个特征映射是一个28x28的神经元阵列,其中每个神经元负责从5x5的区域通过卷积滤波器提取局部特征.采样层亦称为“汇合”(pooling)层,其作用是基于局部相关性原理进行亚采样,从而在减少数据量的同时保留有用信息.例如图5.15 中第一个采样层有6个14x14的特征映射,其中每个神经元与上一层中对应特征映射的 2x2邻域相连,并据此计算输出.通过复合卷积层和采样层,图5.15中的CNN 将原始图像映射成120维特征向量,最后通过一个由84个神经元构成的连接层和输出层连接完成识别任务.CNN可用BP算法进行训练,但在训练中无论是卷积层还是采样层,其每一组神经元(即图5.15中的每个“平面”)都是用相同的连接权，从而大幅减少了需要训练的参数数目。

深度学习可以理解为一种特征学习（feature learning）或者表示学习（representation learning），无论是DBN还是CNN，都是通过多个隐层来把与输出目标联系不大的初始输入转化为与输出目标更加密切的表示，使原来只通过单层映射难以完成的任务变为可能。即通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示，从而使得最后可以用简单的模型来完成复杂的学习任务。
传统任务中，样本的特征需要人类专家来设计，这称为特征工程（feature engineering）。特征好坏对泛化性能有至关重要的影响。而深度学习为全自动数据分析带来了可能，可以自动产生更好的特征。