因为研究方向需要对机器学习、深度学习有着较深刻的理解,为了每天督促学习、提高自身英语水平和加强对相关知识理解,特在此进行粗略的翻译,相关参考有马春鹏中文版。翻译的书籍为《Pattern Recognition and Machine Learning》Christopher M. Bishop。仅供个人学习与回顾,主要组成为原文翻译加公式的详细推导。
本次页码为P1-P3。
1、介绍
在数据中搜索模式是一个基本的问题,并有着悠久且成功的历史。例如,十六世纪第谷布拉赫的广泛的天文观测使得约翰内斯开普勒发现了行星运动的经验公式,这反过来为经典力学的发展提供了跳板。类似的,原子光谱规律的发现在20实际早期对量子力学的发展和验证上起着关键的作用。模式识别领域关心的是通过计算机算法的使用自动的进行数据中规律的发现,并使用这些规律来采取行动,例如将数据分为不同的类别。
考虑手写数字识别的例子,展示在图1.1,每一个数据对应于一个像素的图像。所以可以用一个包含784个实数的向量来表示。人物的目标是建立一个机器,它能够将上述向量作为输入并产生数字的识别作为输出。由于手写体的千差万别,这是个重要的问题。
图像1.1来自美国邮政编码的手写数字的例子。
它可以用手工制作的规则或启发式方法来解决,根据笔画的形状来区分数字。但在实际中,这样的方法会导致规则和规则的例外的激增等等,总会产生很差的结果。通过采取机器学习的新方法可以获得更好的结果,在这个方法中,被称作训练集的含有N个数字的大集合被用来调整自适应模型的参数。训练集中数字的标签是提前知道的,通常是通过逐个检查它们并手工标注它们。我们可以使用目标向量t来表示数字的类别,代表着对应数字的标签。使用向量来表示类别的合适的技术将在后面讨论。注意到对每一个数字图像x都有一个这样的目标向量t。机器学习算法运行的结果被表示为函数y(x),这个函数以一个新的数字图像为输入,产生一个和目标向量相同编码形式的输出向量y。函数y(x)的精确形式在训练阶段确定,这个阶段也被称为学习阶段,以训练数据为基础。一旦模型被训练完,它就可以判定新数字图像的标签是什么,这些新的数字图像组成了测试集。正确分类与训练集不同的新样本的能力叫做泛化。在实际应用中,输入向量的可变性将使训练数据只包括所有可能的输入向量中的一小部分,因此泛化是模式识别的一个核心目标。
对于大多数应用而言,原始输入变量通常经过预处理,将其转化为一些新的变量空间,希望在这些空间中,模式识别问题将更容易解决。例如,在数字识别问题,数字的图像通常被转化和缩放以致每一个数字都被包含在一个固定大小的盒子里。这显著地减少了每个数字类别的可变性,因为现在所有数字的位置和大小都是相同的,这使得随后的模式识别算法更容易区分不同的类别。这个预处理阶段右矢也被称为特征提取。注意新的测试数据必须使用与训练数据相同步骤的预处理。
预处理有时也被用来加速计算。例如,如果目标是在一个高分辨的视频流里进行事实面部识别,那计算机必须每秒处理大量的像素,将这些直接呈现给复杂的模式识别算法可能在计算上是不可行的。相反,我们的目标是找到可以快速计算的有用的特征,但它们也可以保留有用的鉴别信息,使人脸与非人脸区分开来。然后这些特征被用作模式识别算法的输入。例如,矩形子区域的图像强度的平均值可以被极其有效地评估(ViolaandJones,2004),一组这样的特征可以证明在快速人脸检测中非常有效。由于这些特征的数量小于像素的数量,因此这种预处理代表了一种降维形式。在预处理过程中必须小心,因为信息经常被丢弃,如果这些信息对问题的解决很重要,那么系统的整体准确性就会受到影响。
训练数据包含输入向量的例子及其相应的目标向量的应用被称为监督学习问题。例如数字识别的例子,其目的是将每个输入向量分配到有限数量的离散类别中的一个,这被称为分类问题。如果期望的输出由一个或多个连续变量组成,则该任务称为回归。回归问题的一个例子是化学生产过程的产量预测,其中的输入包括反应物的浓度、温度和压力。
在其他模式识别问题中,训练数据由一组输入向量x组成,没有对应的目标值。这种无监督学习问题的目标可能是在数据中发现一组相似的例子,这被称为聚类,或者确定数据在输入空间中的分布,称为密度估计,或者将数据从高维空间投影到二维或三维,以实现可视化。
最后,强化学习技术(Sutton and Barto,1998)关注的问题是在特定情况下寻找合适的行动,以使奖励最大化。 在这里,学习算法没有被提供有着最佳输出的样本,与监督学习相反,必须通过试错的过程发现它们。通常情况下,有一连串的状态和行动,学习算法在其中与环境进行互动。在许多情况下,当前行动不仅会影响即时奖励,还会影响所有后续时间步骤的奖励。例如,通过使用适当的强化学习技术,一个神经网络可以学会玩双陆棋游戏并达到很高的水平(Tesauro, 1994)。在这里,网络必须学会将棋盘位置和掷骰子的结果作为输入,并产生一个强大的棋步作为输出。通过让网络与自己的副本进行100万场比赛实现上面的学习。一个主要的挑战是,一局西洋双陆棋可能涉及几十步,但只有在游戏结束时才会以胜利的形式获得奖励。然后,奖励必须适当地归因于导致它的所有行动,即使有些行动是好的,有些则是不那么好。这是一个信用分配问题的例子。强化学习的一个常规特征是在探索和利用之间进行权衡,在探索中,系统尝试新的行动类型,来看效果如何,在利用中,系统利用已知的行动,尽力去获得高额回报。对探索或利用的关注度太高,会产生不好的结果。强化学习仍然是机器学习研究的一个活跃领域。