PRMLP1-P3

news/2025/3/21 23:49:11/

因为研究方向需要对机器学习、深度学习有着较深刻的理解,为了每天督促学习、提高自身英语水平和加强对相关知识理解,特在此进行粗略的翻译,相关参考有马春鹏中文版。翻译的书籍为《Pattern Recognition and Machine Learning》Christopher M. Bishop。仅供个人学习与回顾,主要组成为原文翻译加公式的详细推导。

本次页码为P1-P3。

1、介绍

在数据中搜索模式是一个基本的问题,并有着悠久且成功的历史。例如,十六世纪第谷布拉赫的广泛的天文观测使得约翰内斯开普勒发现了行星运动的经验公式,这反过来为经典力学的发展提供了跳板。类似的,原子光谱规律的发现在20实际早期对量子力学的发展和验证上起着关键的作用。模式识别领域关心的是通过计算机算法的使用自动的进行数据中规律的发现,并使用这些规律来采取行动,例如将数据分为不同的类别。

考虑手写数字识别的例子,展示在图1.1,每一个数据对应于一个28\times28像素的图像。所以可以用一个包含784个实数的向量来表示。人物的目标是建立一个机器,它能够将上述向量作为输入并产生数字的识别作为输出。由于手写体的千差万别,这是个重要的问题。

图像1.1来自美国邮政编码的手写数字的例子。

      它可以用手工制作的规则或启发式方法来解决,根据笔画的形状来区分数字。但在实际中,这样的方法会导致规则和规则的例外的激增等等,总会产生很差的结果。通过采取机器学习的新方法可以获得更好的结果,在这个方法中,被称作训练集的含有N个数字的大集合\left \{ x_1,...x_n \right \}被用来调整自适应模型的参数。训练集中数字的标签是提前知道的,通常是通过逐个检查它们并手工标注它们。我们可以使用目标向量t来表示数字的类别,代表着对应数字的标签。使用向量来表示类别的合适的技术将在后面讨论。注意到对每一个数字图像x都有一个这样的目标向量t。机器学习算法运行的结果被表示为函数y(x),这个函数以一个新的数字图像为输入,产生一个和目标向量相同编码形式的输出向量y。函数y(x)的精确形式在训练阶段确定,这个阶段也被称为学习阶段,以训练数据为基础。一旦模型被训练完,它就可以判定新数字图像的标签是什么,这些新的数字图像组成了测试集。正确分类与训练集不同的新样本的能力叫做泛化。在实际应用中,输入向量的可变性将使训练数据只包括所有可能的输入向量中的一小部分,因此泛化是模式识别的一个核心目标。

      对于大多数应用而言,原始输入变量通常经过预处理,将其转化为一些新的变量空间,希望在这些空间中,模式识别问题将更容易解决。例如,在数字识别问题,数字的图像通常被转化和缩放以致每一个数字都被包含在一个固定大小的盒子里。这显著地减少了每个数字类别的可变性,因为现在所有数字的位置和大小都是相同的,这使得随后的模式识别算法更容易区分不同的类别。这个预处理阶段右矢也被称为特征提取。注意新的测试数据必须使用与训练数据相同步骤的预处理。

      预处理有时也被用来加速计算。例如,如果目标是在一个高分辨的视频流里进行事实面部识别,那计算机必须每秒处理大量的像素,将这些直接呈现给复杂的模式识别算法可能在计算上是不可行的。相反,我们的目标是找到可以快速计算的有用的特征,但它们也可以保留有用的鉴别信息,使人脸与非人脸区分开来。然后这些特征被用作模式识别算法的输入。例如,矩形子区域的图像强度的平均值可以被极其有效地评估(ViolaandJones,2004),一组这样的特征可以证明在快速人脸检测中非常有效。由于这些特征的数量小于像素的数量,因此这种预处理代表了一种降维形式。在预处理过程中必须小心,因为信息经常被丢弃,如果这些信息对问题的解决很重要,那么系统的整体准确性就会受到影响。

      训练数据包含输入向量的例子及其相应的目标向量的应用被称为监督学习问题。例如数字识别的例子,其目的是将每个输入向量分配到有限数量的离散类别中的一个,这被称为分类问题。如果期望的输出由一个或多个连续变量组成,则该任务称为回归。回归问题的一个例子是化学生产过程的产量预测,其中的输入包括反应物的浓度、温度和压力。

        在其他模式识别问题中,训练数据由一组输入向量x组成,没有对应的目标值。这种无监督学习问题的目标可能是在数据中发现一组相似的例子,这被称为聚类,或者确定数据在输入空间中的分布,称为密度估计,或者将数据从高维空间投影到二维或三维,以实现可视化。

      最后,强化学习技术(Sutton and Barto,1998)关注的问题是在特定情况下寻找合适的行动,以使奖励最大化。 在这里,学习算法没有被提供有着最佳输出的样本,与监督学习相反,必须通过试错的过程发现它们。通常情况下,有一连串的状态和行动,学习算法在其中与环境进行互动。在许多情况下,当前行动不仅会影响即时奖励,还会影响所有后续时间步骤的奖励。例如,通过使用适当的强化学习技术,一个神经网络可以学会玩双陆棋游戏并达到很高的水平(Tesauro, 1994)。在这里,网络必须学会将棋盘位置和掷骰子的结果作为输入,并产生一个强大的棋步作为输出。通过让网络与自己的副本进行100万场比赛实现上面的学习。一个主要的挑战是,一局西洋双陆棋可能涉及几十步,但只有在游戏结束时才会以胜利的形式获得奖励。然后,奖励必须适当地归因于导致它的所有行动,即使有些行动是好的,有些则是不那么好。这是一个信用分配问题的例子。强化学习的一个常规特征是在探索和利用之间进行权衡,在探索中,系统尝试新的行动类型,来看效果如何,在利用中,系统利用已知的行动,尽力去获得高额回报。对探索或利用的关注度太高,会产生不好的结果。强化学习仍然是机器学习研究的一个活跃领域。

 

 


http://www.ppmy.cn/news/468466.html

相关文章

NTP服务器

文章目录 NTP服务器NTP服务器的安装与配置所需软件与软件结构主要配置文件ntp.conf的处理利用restrict来管理权限控制利用server设置上层NTP服务器以driftfile记录时间差异 NTP的启动与观察 客户端的时间更新方式Linux手动校时:date、hwclockLinux的网络校时 NTP服务…

亿发软件:智慧中医馆一体化系统解决方案,实现中医药煎配信息化

近年来,随着中药制造领域先进技术的大力推广和应用,先进制造技术的融合对关键工艺和装备进行了革新。传感器、过程检测技术、自动化设备和信息管理系统的采用显著提高了中药汤剂的生产。下面我们来探讨一下中药煎配信息化管理系统:中药生产过…

【云原生】· 一文了解docker中的网络

目录 🍒查看docker网络 🍒bridge网络 🍒none网络 🍒host网络 🍒自定义容器网络 🦐博客主页:大虾好吃吗的博客 🦐专栏地址:云原生专栏 根据前面的学习,已经对d…

固态硬盘的PCIE,SATA,M2,NVMe,AHCI

[转自 https://baijiahao.baidu.com/s?id=1616207956596122967&wfr=spider&for=pc] 提纲 区别 M2和SATASATA和PCIENVME和AHCINVME介绍NVMe的由来NVME的优势区别 固态硬盘近年来也是随着计算机的发展而得到了迅速的发展,目前已经隐隐有要取代机械硬盘的势头,只要成本…

未来计算机存储器 云,未来数据储存技术与硬盘的发展论文

未来数据储存技术与硬盘的发展论文 摘 要:在过去的大半个世纪里,信息储存一直都是利用的磁技术,小型方便是数据储存和计算机硬盘的特点,并且发展迅速。如今正在被研究的利用热辅助技术和图形媒介技术将会让数据储存技术攀上一个新…

云服务器选ssd还是hdd_服务器租用主机硬盘使用机械硬盘还是固态硬盘

服务器租用主机硬盘使用机械硬盘还是固态硬盘 服务器租用用户在选择主机的时候往往将硬盘的性能放在第一位考虑。而机械硬盘以及固态硬盘 是用户最纠结的地方。那么应该怎么选呢? 一、 HDD 机械硬盘和 SSD 固态硬盘之间有什么区别? 无论您是购买新笔记本…

linux把分区搞成了raw,硬盘分区突然变RAW?手把手教你如何自救

不少用户在电脑的使用过程中都遇到过存储设备文件格式突然变为RAW,出现盘符丢失、查看不了任何内容的情况。都说设备有价数据无价,怎能让莫名巧妙的错误毁了我们的数据?本文就存储设备分区突变RAW这个问题提供了一些切实可行的解决方法,希望能帮助你保护数据。 其实就重要数…

SSD 与 HDD 哪个最适合工业主板?

市场上提供了多种类型和配置的二级存储,可能会让你对选择哪一种来满足你的需求感到困惑。最常见的问题是SSD和HDD存储的区别,哪一个是你电脑二级存储的最佳选择。本文朗小锐将为你提供全面的见解,比较SSD和HDD之间的差异,以帮助你…