Neural networks 神经网络

发展时间线

基础概念

多层神经网络结构

神经网络中一个网络层的数学表达

TensorFlow实践

创建网络层

神经网络的创建、训练与推理

推理

推理可以理解为执行一次前向传播

前向传播

前向传播直观数学表达

前向传播直观数学表达的Python实现

前向传播向量化实现

训练

相比前面TensorFlow实践中的步骤简化，这里细化了如何compile和fit模型。

TensorFlow实践

底层原理

1. 明确逻辑回归表达式及激活函数

2. 明确损失函数及成本函数

3. 开始训练，并最小化成本函数

激活函数

为什么需要激活函数

当你网络中每一层都不使用激活函数（即每一层都使用线性激活函数），根据下图的推导会发现不管你有几层最终的输出还是跟输入是线性的，因此最终实现的都是一个线性回归，而很多问题不是线性回归能够描述的。

常见激活函数

前面所有例子使用的激活函数都是sigmod，但是实际还有其他可替代的，比如下面的ReLU(Rectified Linear Unit)，不需要关注全称

输出层激活函数选择

根据你要输出的性质选择，一般不存疑

隐藏层激活函数选择

现在绝大多数情况下会选择ReLU作为隐藏层的激活函数，两个原因：

1. 计算量更小

2. 只有 z < 0 时曲线的梯度(斜率)很小(为0)，而sigmod函数在两侧梯度都很小，收敛更慢

多类分类：SoftMax回归

前面举的例子都是解决二分类问题，非0即1，但是实践中经常有多类分类问题，比如要识别0-9的数字

数值稳定的回归

多标签分类

跟多类分类要区分开，多类分类是指n类选命中哪1类，多标签分类是指n个标签命中其中m个标签，每个标签是二值

梯度下降优化算法：Adam算法

adaptive moment estimation（自适应矩估计），该算法是梯度下降的优化算法，效率更高，课程没有讲Adma算法的具体实现，但是实现的大致原理是：动态调整学习率α，梯度下降过程中，多次朝同一个方向下降的时候放大学习率，来回震荡时缩小学习率

神经网络层类型(layer type)

全连接层(dense layer)

每个神经元的输入是前一层所有输出(activation outputs)。

卷积层(convolutional layer)

每个神经元的输入是前一层部分输出。在某些场景会比全连接层效果更好，不过没讲分别适用的场景

为什么需要卷积层：

1. 减少计算量，加快计算速度

2. 减少训练需要的样本量，更不容易出现过拟合

反向传播

将计算损失的过程生成一个计算图，前向传播可以计算各个中间变量以及最终损失，而通过反向传播则可以通过导数的链式计算，逐步获取到J对所有参数的偏导数在该训练数据下的值

应用机器学习的建议

模型评估

数据集中圈出大部分数据用于训练并记录为训练集，留出少部分进行test并记录为测试集。可以分别对测试集和训练集计算最终模型的误差，注意计算误差的时候不再计算正则化项。

分类问题中也可以使用下图的匹配数量计算训练集和测试集的误差

训练集/交叉验证集/测试集评估误差

偏差与方差(bias/variance)

作用

$J_{train}(\vec{w}, b)$ 很高、 $J_{cv}(\vec{w}, b) \approx J_{train}(\vec{w}, b)$ ，说明高偏差，拟合度不足

$J_{train}(\vec{w}, b)$ 很低、 $J_{cv}(\vec{w}, b)$ 很高，说明高方差，过拟合

$J_{train}(\vec{w}, b)$ 很高、 $J_{cv}(\vec{w}, b) \gg J_{train}(\vec{w}, b)$ ，说明高偏差、更高方差，说明在部分数据上过拟合，部分数据拟合不足

正则化对偏差/方差的影响

1. λ 接近 0 时，相当于没有正则化，会产生过拟合

2. λ 接近无穷大时，相当于w稍微有值

确定模型的基线水平

你需要将 $J_{train}(\vec{w}, b)$ 、 $J_{cv}(\vec{w}, b)$ 与基线水平对比差距以判断偏差与方差，而不是根据他们的绝对值判断偏差与方差。确定基线水平有以下几种方式

1. 人类表现水平

2. 竞品/同类算法表现水平

3. 基于经验猜测目标水平

学习曲线

因为随着加入的训练数据变多，拟合越来越难满足所有数据，所以 $J_{train}(\vec{w}, b)$ 逐步增大，而 $J_{cv}(\vec{w}, b)$ 逐渐减小，但还是会大于 $J_{train}(\vec{w}, b)$

高偏差

高偏差情况下， $J_{train}(\vec{w}, b)$ 和 $J_{cv}(\vec{w}, b)$ 都高于基线水平，即使增加数据集也不能缓解，所以增加数据集规模没有作用

高方差

高方差情况下，基线水平处于 $J_{train}(\vec{w}, b)$ 和 $J_{cv}(\vec{w}, b)$ 之间，增加数据集大小可以降低 $J_{cv}(\vec{w}, b)$ ，即可以提高模型性能

如何优化模型性能

经过合适的正则化之后的更大的模型通常表现要比更小的模型更好或者相仿，但是相应地会增加训练和推理的成本

机器学习开发流程

误差分析

通过对交叉验证集中预测错误的数据，抽样出合理数量的数据，对这些误差数据进行归类分析，将注意力集中到高频出现的问题上，以确定下一步要优化的优先级并针对高优优化类别分析改进方案

如何添加训练数据

收集更多数据

增加误差分析中占比比较多的分类的数据，可以有效提高模型性能

数据增强(data augmentation)

主要应用于图像、音频领域，对已有的训练数据做一定的变换（放大、所有、旋转、失真）作为新的同标签训练数据，提高模型性能

数据合成

基本上也只是用于计算机视觉，很少用于其他领域。例如想训练文本识别模型，可以在电脑上使用不同字体、不同颜色、不同对比度生成文本作为训练集

迁移学习

概念

迁移学习是指复用其他已经经过训练的模型参数和结构，然后替换掉输出层，再基于你自己的训练集进行再训练。此时你复用的模型成为预训练(pre training)模型，而再训练过程成为微调（fine tuning）。这使得你可以站在巨人的肩膀上实现你自己的模型功能，感谢这些乐于分享自己训练好的模型的人吧，有机会你也可以尝试回馈社区。

微调也有两种方式：

1. 你自己的数据集比较小，只微调输出层参数

2. 你自己的数据集比较大，可以同时微调隐藏层和输出层的所有参数

示例

比如下图例子，使用其他人训练好的判断图片是否存在猫、狗、骑车、人的模型和参数，替换输出层之后使用数据集训练为识别数字的模型。

什么情况可以进行迁移学习

预训练和微调模型的输入类型必须是相同的。此时每个隐藏层在预训练和微调时可能发挥类似的作用，比如前面的图像识别示例中，可能第一个隐藏层都在检测边，第二个隐藏层在检测角，第三层再检测曲线/形状。

倾斜数据集

示例

罕见病检测中，一种罕见病发病率仅为0.5%，那么即使是一个永远输出y=0的程序，准确率也达到了99.5%，所以这时只用准确率来评判检测模型的性能是不够的

准确率与召回率

两者之间的取舍

使用F1 score(调和平均数 harmonic mean)