机器学习1_机器学习定义——MOOC

embedded/2024/11/13 2:23:33/

一、机器学习定义

定义一

1959年Arthur Samuel提出机器学习的定义:

Machine Learning is Fields of study that gives computers the ability to learn without being explicitly programmed.


译文:机器学习是这样的领域,它赋予计算机学习的能力,(这种学习能力)不是通过显著式的编程获得的。

什么是显著式?

人为的告诉计算机,菊花是黄色的,玫瑰是红色的。

非显著式的编程

如果我们只给计算机一堆菊花和玫瑰的图片,编写程序让计算机自己去总结菊花和玫瑰的区别。

计算机通过大量的图片,从一大堆可能的规律中挑出最能区分菊花和玫瑰的一些规律,从而完成对菊花和玫瑰的识别。

举例

需求:让机器人到教室外面的咖啡机去我们冲一杯咖啡。

显著式的编程

我们必须帮计算机规划所处环境,每一步怎么走都要规划的一清二楚。

非显著式的编程

我们可以规定机器人可以采取一系列的行为,例如向左转,向右转等。

规定在特定的环境下,机器人做这些行为所带来的收益,把这个成为收益函数(Reward Function)。

例如,机器人采取的某个行为撞到了墙上,规定这时候的收益函数值为负。如果机器人采取某个行为取到了咖啡,那么程序就要奖励一下这个行为,规定这时候的收益函数值为正

只要程序编的足够好,计算机是可能找到一个最大化收益函数的行为模式。

结论:非显著式的编程能够让计算机通过数据和经验自动的学习完成我们交给的任务。

定义二

1998年Tom Mitshell在《Machine Learning》中的定义:

A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.


译文:一个计算机程序被称为可以学习,是指它能针对某个任务T和某个性能指标P,从经验E中学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。

举例

以菊花和玫瑰为例。

任务T:编写程序识别菊花和玫瑰

经验E:一大堆菊花和玫瑰的图片

性能指标P:不同的机器学习算法会有不同

识别率(Recognition Rate):让更多的菊花被识别为菊花,更多的玫瑰被识别为玫瑰

根据Tom Mitshell的定义,机器学习就是针对识别菊花和玫瑰这样的任务构造某种算法。这种算法的特点是,当训练的菊花和玫瑰的图片越来越多的时候,也就是经验E越来越多的时候,识别率越来越高。


二、机器学习的分类

机器学习算法可以分为监督学习和强化学习,但这个划分并不绝对。

监督学习(Supervised Learning)

一些输入计算机训练数据(所有的经验E都是由人工采集并输入进计算机的)同时加上标签的机器学习

对于监督学习,可以根据数据标签的存在与否分为三类:
  • 传统的监督学习(Traditional Supervised Learning)
每一个训练数据都有对应的标签。

支持向量机(Support Victor Motion)、人工神经网络(Neural Networks)、深度神经网络(Deep Neural Networks)。

  • 非监督学习(Unsupervised Learning)

所有的训练数据都没有对应的标签。

如图,左边的图像,⭕代表一类,❌代表一类。右边的图像总,假设有这些训练的数据,但不知道这些训练数据的标签。所以就需要假设同一类的训练数据在空间中的距离更近。

聚类(Classtery)、EM算法(Expectation-Maximization algorithm)、主成分分析(Principle Component Analysis)

  • 半监督学习(Seme Supervised Learning)

训练数据中一部分有标签,另一部分没标签。

利用少量的标注数据和大量没有标注过的数据一起训练。

如图,左边的图中,如果只有两个标注过的训练样本,我们并不知道如何进行分类。但是如果我们增加一些没有标签的训练样本,如右图所示,那么我们可能设计算法更准确的实现分类。

另一种分类方法是基于标签的固有属性。
  • 分类(Classification)

标签是离散的值。

如识别一张人脸是一堆人脸中的哪一个。

  • 回归(Regression)

标签是连续的值。

如预测房价,预测股票的价格等。

强化学习(Reinforcement Learning)

经验E是由计算机与环境相互的互动获得的。

计算机产生行为同时获得这个行为的结果,程序只需要定义这些行为的收益函数,对行为进行奖励和惩罚。同时需要设计算法,让计算机自动的通过改变自己的行为模式去最大化收益函数,完成学习的过程。


三、机器学习算法的过程

拿到数据之后,构建机器学习算法的第一步是观察数据,总结规律。如果我们总结对数据没有感性的认识,我们就很难设计出好的算法,也很难估计算法可能达到的性能极限。

错误做法:认为只要收集足够多的数据,从网上随便下载一个开源的算法模型,直接将数据丢到算法模型当中去训练,就可能获得很好的结果。

如图,可能被观察到的区别,总结起来包括如下三个方面:

  1. 平均来说,白细胞的面积比红细胞更大。
  2. 平均来说,白细胞没有红细胞那么圆。
  3. 白细胞内部的纹理比红细胞要粗糙一些。

机器学习的第一步

特征提取(Feature Extraction)

特征提取是指通过训练样本获得对机器学习任务有帮助的多个维度的特征数据。

首先特征的提取和特征选择,不同的任务提取特征的方式有不同。基于特征构建算法。不同的算法会对特征空间做不同的划分,获得不同的结果。

例如,支持向量机(Support Victor Motion)

支持向量机有三至内核:线性内核、多项式内核、高斯镜像奇函数核。


http://www.ppmy.cn/embedded/136074.html

相关文章

C++ 实现俄罗斯方块游戏

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

厘清红黑层

落红不是无情物 接前面红黑树转2-3-4树——雨后春笋《算法技术手册》排序——万亿数量级 流量第一的图反向构造定制代码打印输出红一层黑一层 真实面目加一减一插入 化作春泥更护花实验计数代码测试代码 少于一半黑一层红一层打印看看 后话 接前面 红黑树的插入——层层历历在…

nodejs 019: React组件 JSX基础语法规则

注:本文为JSX基础语法规则总结,除一二级标题外的大部分内容由LLM生成JSX(JavaScript XML)是一种语法扩展,主要用于 React 项目。它让我们可以在 JavaScript 中直接编写类似 HTML 的代码,简化了定义 UI 组件…

网络协议都有哪些?

网络协议是为计算机网络中进行数据交换而建立的规则、标准或约定的集合。以下是一些常见的网络协议: TCP/IP协议:传输控制协议/因特网互联协议,又名网络通讯协议,是Internet最基本的协议、Internet国际互联网络的基础。由网络层的…

SpringBoot在城镇保障性住房管理中的应用

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理城镇保障性住房管理系统的相关信息成为必然…

HarmonyOS开发 - 餐饮APP中多门店多窗口打开实例补充

specified启动模式为指定实例模式,有一些特殊场景,例如多门店应用中每次打开一个门店都希望能新建一个门店实例,而重复打开同一个门店都是同一门店实例。 此篇为餐饮APP中多门店实例的补充内容,以解决同一门店多次点击重复创建新窗…

2024 Rust现代实用教程 closures闭包

文章目录 一、闭包基础概念1.如何使用闭包 二、闭包获取参数byreference与byvalue1.获取外部参数2.所有权转移move 三、闭包是怎么工作的1.闭包在底层是怎么工作的?2.FnOnce,FnMut,Fn特质 四、闭包类型FnOnce、FnMut和Fn做函数参数的实例参考 一、闭包基础概念 闭包…

Unity Windows 2023 Release-Notes

🌈Unity Windows 2023 Release-Notes 本文信息收集来自自动搜集工具👈 版本更新内容2023.2.13Windows: Fixed Double backslash becoming single backslash when passing a Network path as a command line argument.(UUM-55979)2023.2.9Windows: Fixed…