吴恩达机器学习WEEK1

COURSE 1 WEEK 1

机器学习的应用

当我们有一个目标，不知道如何显示地写出来一个程序时，例如自动驾驶等，这时候就需要制定某些规则，让计算机自己去学习，即机器学习

机器学习就是沿用人脑学习的过程，逐步对目标进行认知、学习

机器学习的定义

Arthur Samuel将机器学习定义为使计算机无需明确编程即可完成学习的研究领域

一般而言，给机器越多的训练，其最后表现得效果就会越好

机器学习主要分为：

监督学习，实际应用中使用最多的算法模型
无监督学习

监督学习

监督学习是指学习从 $x$ 到 $y$ ，即从输入到输出映射的算法，关键是人为提供学习算法实例以供学习，即我们的数据集，根据我们提供的数据，使得机器尽可能准确（与数据相符）的获得一个输出，从而用来预测

一些领域的应用：
在这里插入图片描述

在这些程序中，我们首先使用输入事例 $x$ 和正确答案 $y$ 来训练模型，在模型通过这些数据中学习之后，他们可以采用全新的输入 $x$ ，并尝试产生对应的适当的输出 $y$

即 Learns from being given “right answers”

在监督学习中，又可以分为：

回归，从无限多的可能数字中预测数字，例如房价的预测
分类，输出的值是一组有限的集合，且输出不必是数字，例如乳腺癌肿瘤分类。

分类算法的学习任务就相当于是找到不同类别的分界线，用于做分类

在分类中，输出是一组离散的、有限可能的输出

在回归中，输出是无限多可能的数字

无监督学习

无监督学习中，给定的数据与任何输出标签 $y$ 无关，即例如乳腺癌预测，只给出了患者年龄和肿瘤块大小，但我们不知道是否患有肿瘤，即没有任何标签
在这里插入图片描述

因此，如上图中，无监督学习的任务就是找到数据的集群，即哪些数据聚集在一起，例如经常使用的聚类算法

就像推荐系统，在阅读文章时，通常会有推荐阅读，这就是无监督算法，他通过我们阅读的文章中的关键词，进行搜索，把关键词相同的文章进行聚类，从而形成推荐阅读

总的来说，聚类算法就是获取没有标签的数据并尝试自动将他们分组到集群中

无监督学习类型：

聚类算法
异常检测
降维，将大数据压缩成一个小得多的数据集，同时丢失尽可能少的信息

线性回归模型

模型介绍

线性回归是监督学习中一个重要的模型，其具体做法是利用一条直线来拟合我们当前的数据，例如房价预测

在这里插入图片描述

常用术语

输入 $x$ ：feature，即特征
输出 $y$ ：target，即目标
训练样本的总数 $m$
$x^{(i)},y^{(i)})$ 代表这是第 i 个训练示例

整体过程：
在这里插入图片描述

首先定义训练集，即training set，其中包括特征与目标
然后设置学习算法，模型通过这个算法去进行学习
最终得到一个函数f，称为我们的模型
通过输入一些值，并且定义他的大小，得到预测值

关键：模型函数f的定义

由于我们是线性模型，因此，在这里定义模型为：
$f_{w, b}(x) = wx + b$
这是一个关于 $x$ 的函数，输出为 $\hat y$ ，并且通过学习合适的参数 $w 、 b$ 来使预测值足够准确

损失函数

损失函数能够告诉我们模型的运行情况，以便我们可以尝试让他做得更好

在我们的模型中， $w 、 b$ 称为参数，即 parameters

当参数不同时，我们的模型就会不同，最终的预测结果也就不同

在这里插入图片描述

因此，对于我们的线性回归模型，就是要找到最合适的一组参数，使得我们的预测值尽量准确，尽量的的接近训练示例

因此，为了表示准确程度，我们需要设置损失函数，来表示我们模型的直线与训练数据的匹配程度

误差项err：
$(\hat y^{(i)} - y^{(i)})$
损失函数cost function：
$\frac{1}{2m}\sum_{i=1}^{m}(\hat y^{(i)} - y^{(i)})^2 = \frac{1}{2m}\sum_{i=1}^{m}(f_{w, b}(x^{(i)}) - y^{(i)})^2$
即，平方误差损失函数

最前面除以2是为了后续的计算中表达更简洁

因此，最终我们的目标是通过训练来更新参数的值，使得损失函数最小，即
$\mathop{\min}\limits_{w,b} =J(w,b)$
为了简化操作方便可视化，这里去掉参数 $b$ ，把误差函数作为 $J (w)$ ，通过选取不同的参数 $w$ ，误差函数曲线如下所示：

在这里插入图片描述

梯度下降

梯度下降算法是通过对损失函数求解梯度计算，找到损失函数最小时对应的参数的值

一般而言，我们并不需要关注参数的初始值，因此一般在算法初始阶段会将参数设置为 0

梯度下降算法的整体流程就相当于下山的过程，当我们想要迅速下山至山谷时，每一次都要朝着一个方向迈出一小步，为了尽快下山，每一步的方向应该是当前山坡中最陡的方向
在这里插入图片描述

其中，下山的方向就是我们的梯度，迈出的步伐大小就是学习率

同时，由于初始点的选取不同，我们可能会下山到不同的山谷，即对应了各种局部最优解

梯度下降算法公式

$\alpha \frac{\partial}{\partial w}J(w,b) \\ b = b - \alpha \frac{\partial}{\partial b}J(w,b)$

其中， $\alpha$ 是学习率

注意：

在执行梯度下降算法计算梯度时，上述两个梯度的计算是同时的，即损失函数 $J (w, b)$ 中的值是相同的，且两个参数的更新是同时的，这样做的目的是能够确保是在源点寻找到最陡的地方

在这里插入图片描述

学习率的选取

当学习率选择较小时，意味着我们下山时每一步的步长比较小，需要较多次数才能到达山谷，虽然最终会得到正确的答案，但需要耗费较长的时间
在这里插入图片描述

当学习率比较大时，意味着我们下山时每一步的步长比较大，可能会加速我们下山的过程，但由于步长较大，因此会错过山谷，即结果不会收敛到最小值点
在这里插入图片描述

但是，使用梯度下降算法时，经常遇到的一个问题是陷入局部最优解，此时该点的梯度值为 0，参数不能更新

因此，通常，在使用梯度下降算法时，我们通常会对学习率做自适应的变化，即随着迭代次数的增加，学习率逐步减小：

在算法的初步阶段，学习率较大，提高全局搜索能力，使得参数快速收敛到最优值附近
在算法的结尾阶段，学习率较小，提高局部搜索能力，使得参数精确收敛到精确值的位置