【机器学习与实现】机器学习概述

embedded/2024/9/18 12:17:29/ 标签: 机器学习, 数据分析, 人工智能

目录

    • 一、机器学习的基本概念和方法
      • (一)基本概念
      • (二)机器学习的一般过程举例
      • (三)样本和参数估计
    • 二、机器学习的步骤总结
      • (一)机器学习的主要步骤
      • (二)样本及样本的划分
      • (三)评估机器学习模型的效果
      • (四)欠拟合、过拟合与泛化能力
    • 三、机器学习的预处理环节
      • (一)数据预处理
      • (二)数据标准化
      • (三)数据的降维
    • 四、机器学习的类型
      • (一)聚类模型、分类模型、回归模型
      • (二)监督学习、无监督学习和半监督学习
    • 五、机器学习的学习路线


人工智能机器学习、深度学习的关系

机器学习

在这里插入图片描述

一、机器学习的基本概念和方法

(一)基本概念

从事例中学习(体现数据驱动)—— “事例” 即 “样本”。

  • 统计学:由样本的统计量估计总体的参数。
  • 机器学习:利用训练集进行建模和参数估计,利用测试集进行模型测试。

在这里插入图片描述

(二)机器学习的一般过程举例

问题:让机器(程序)自动识别一个物品是筷子or牙签。(注: 机器开始并没有筷子和牙签的任何知识)

1、第一步:收集一些筷子和牙签的样本。

在这里插入图片描述
2、第二步:特征选择,选择有区分度的特征。

3、第三步:训练模型。

  • 训练(training):从数据中学得模型的过程称为学习(learning)或训练(training),这个过程通过制定某种策略和执行某个学习算法来完成。
  • 训练过程中使用的数据称为训练数据(training data),其中每个样本称为一个训练样(training sample),训练样本组成的集合称为训练集(training set)。

在这里插入图片描述
模型:能否是其他? 例如抛物线所有可能的模型的集合称为假设空间

4、第四步:预测新实例。

  • 学得模型后,使用其进行预测的过程称为测试(testing),被预测的样本称为测试集(testing sample)。
  • 泛化能力(generalization):学得模型适用于新样本的能力。

在这里插入图片描述
机器学习三要素:基于一定策略,通过合适的算法求得模型

  • 模型:考研(江海大or南大)
  • 策略:求稳or更好的前景
  • 算法:内外联动

(三)样本和参数估计

  • 统计学中:样本是用来估计总体的参数。
  • (统计)机器学习:样本是用来训练模型和估计模型参数的。
  • 对于参数估计来说

在这里插入图片描述

二、机器学习的步骤总结

(一)机器学习的主要步骤

  1. 收集相关样本
  2. 提取特征
  3. 将特征转换为数据(数据标准化)
  4. 训练模型
  5. 使用模型预测新实例

(二)样本及样本的划分

样本分为训练集、验证集和测试集。

在这里插入图片描述

  • 为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集。

  • 训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。此外,验证集常用于调整模型的超参数。

在这里插入图片描述

(三)评估机器学习模型的效果

  训练模型的最终目的是提高模型在总体(含新样本)上的预测准确率,而不是在已知样本上的预测准确率。

为适应特殊样本而修改分类线为曲线:

在这里插入图片描述
两种分类线的预测准率对比:

在这里插入图片描述
  泛化能力是评价机器学习模型优劣的最根本指标,然而,模型的训练通常以最小化训练误差为标准。对于固定数量的训练样本,随着训练的不断进行,训练误差会不断降低,甚至趋向于零。如果模型训练误差过小,就会使训练出来的模型基本上完全适应于训练样本。

(四)欠拟合、过拟合与泛化能力

1、欠拟合、过拟合示例

  模型在训练样本上产生的误差叫训练误差(training error)。在测试样本上产生的误差叫测试误差(test error)。

在这里插入图片描述
在这里插入图片描述
2、泛化能力与模型复杂度

在这里插入图片描述
  衡量模型好坏的是测试误差,它标志了模型对未知新实例的预测能力,因此一般追求的是测试误差最小的那个模型。模型对新实例的预测能力称为泛化能力,模型在新实例上的误差称为泛化误差。

  能够求解问题的模型往往不只一个。一般来说,只有合适复杂程度的模型才能最好地反映出训练集中蕴含的规律,取得最好的泛化能力。并非使用一个更复杂的模型就会更好

3、奥卡姆剃刀原理——大道至简

  奥卡姆剃刀(Occam’s Razor)原理:如果有两个性能相近的模型, 我们应该选择更简单的模型 ,通常简单的模型泛化能力更好 。

在这里插入图片描述
课程思政:

  • 减少杂念,追求本真
  • 活在当下:在合适的时间做该做的事情
  • 不走极端、过犹不及

4、泛化能力评估方法

——留出法、K-折交叉验证

  将训练数据划分为训练集和验证集的方法称为留出法(holdout method),一般保留已知样本的20%到30%作为验证集。

  K-折交叉验证是将总样本集随机地划分为K个互不相交的子集。对于每个子集,将所有其它样本集作为训练集训练出模型,将该子集作为验证集,并记录验证集每一个样本的预测结果。这个方法将每一个样本都用来进行了验证,其评估的准确性一般要高于留出法。

在这里插入图片描述

三、机器学习的预处理环节

(一)数据预处理

  数据预处理是机器学习中繁琐枯燥但又是很重要的一个阶段。

在这里插入图片描述
为什么要进行数据预处理:

  获取到的原始样本数据往往会存在有缺失值、重复值等问题,在使用之前必须进行数据预处理。

数据预处理之前的样本:

在这里插入图片描述
数据预处理之后的样本:

在这里插入图片描述

(二)数据标准化

对于样本数据来说,首先需要消除特征之间不同量级的影响:

  • 量纲的差异将导致数量级较大的属性占主导地位(例如身高1.75米,体重130斤)。
  • 数量级的差异将导致迭代收敛速度减慢。
  • 依赖于样本距离的算法对于数量级非常敏感。

1、常用的数据标准化方法

  • min-max标准化(归一化):映射到[0,1]区间
    新数据 = (原数据 - 最小值) / (最大值 - 最小值)
  • z-score标准化(规范化):转换成标准正态分布
    新数据 = (原数据 - 均值) / 标准差

在这里插入图片描述
2、标准化和归一化的选择

  • 标准化:样本数据的分布要求服从正态分布。
  • 归一化的缺点:对离群值(outlier)很敏感,因为离群点会影响max或min值;其次,当有新数据加入时,可能导致max和min值发生较大变化。

  而在标准化方法中,新数据加入对标准差和均值的影响并不大。归一化会改变数据的原始距离、分布,使得归一化后的数据分布呈现类圆形。优点是数据归一化后,最优解的寻找过程会变得更平缓,更容易正确地收敛到最优解。

(三)数据的降维

  “维度” 就是指样本集中特征的个数,“降维” 指的是降低特征矩阵中特征的数量。维度灾难会导致分类器出现过拟合。这是因为在样本容量固定时,随着特征数量的增加,单位空间内的样本数量会变少。

在这里插入图片描述
在这里插入图片描述
  数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,数据比模型更重要。

数据的降维方法:

  主成分分析(Principal Component Analysis,PCA)是最常用的一种降维方法,它试图找到数据方差最大的方向进行投影。矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推。

  假设有五个样本,两个维度的数据,那么这五个样本要从二维降维到一维,就图中的三条虚线,新的维度为哪一条最好?

在这里插入图片描述
  需要分别计算下在新的维度上的投影值,然后计算投影坐标值的方差,方差最大的就是最好的维度
(数据点更容易区分)。

四、机器学习的类型

(一)聚类模型、分类模型、回归模型

  • 聚类(Clustering)模型用于将训练数据按照某种关系划分为多个簇,将关系相近的训练数据分在同一个簇中。
  • 分类(Classification)是机器学习应用中最为广泛的任务,它用于将某个事物判定为属于预先设定的多个类别中的某一个。
  • 回归(Regression)模型预测的不是属于哪一类,而是什么值,可以看作是将分类模型的类别数无限增加,即标签值不再只是几个离散的值了,而是连续的值。

(二)监督学习、无监督学习和半监督学习

  • 监督学习处理的对象是所谓的有标签训练数据,它利用有标签的训练数据来学习一个模型,它的目标是用学到的模型给无标签的测试数据打上标签。
  • 无监督学习的训练数据没有标签,它自动从训练数据中学习知识,建立模型。
  • 半监督学习是监督学习和无监督学习相结合的一种学习方法。

在这里插入图片描述

五、机器学习的学习路线

在这里插入图片描述


http://www.ppmy.cn/embedded/15202.html

相关文章

Discuz! X3.4 升级至 Discuz! X3.5 详细教程

第一步:从其他以前的 Discuz! X 版本升级Discuz! X3.4 请先升级到Discuz! X3.4,升级教程网上比较普遍,在此不再论述。 第二步:Discuz! X3.4 升级至 Discuz! X3.5 (Discuz 从 X3.5 以后,不在发布GBK版本&…

复选按钮,但只能选中一个

需求:页面中需要将单选按钮变为复选按钮的样式,但功能上还是只能选中一个。 实现: const listItems document.querySelectorAll(input[type"checkbox"]); listItems.forEach((checkbox) > {checkbox.addEventListener("…

xhs图片获取并且转换成PDF,实现了我考研期间一直想实现的想法

对于一些xhs图文,很多人其实想把它的图片保存到本地,尤其是下图所示的考研英语从文章中背单词,不说别人,我就是这样的。 我在考研期间就想实现把图片批量爬取下来,转成PDF,方便一篇一片阅读进行观看&#…

C语言编程题_3D接雨水

接雨水的题目描述如下。 (1) 2D接雨水: 字节员工是不是个个都会接雨水 ; (2) 3D接雨水: 407. 接雨水 II ; (3) 3D接雨水: 字节人都会的 3D接雨水 。 问题描述 难度:困难 给你一个 m x n 的矩阵&#xff…

使用 git cherry-pick 命令可以将指定的提交从一个分支移动到另一个分支

使用 git cherry-pick 命令可以将指定的提交从一个分支移动到另一个分支。以下是 git cherry-pick 命令的基本用法&#xff1a; php Copy code git cherry-pick <commit1> <commit2> ...其中&#xff0c;, , … 是你想要移动到当前分支的提交的哈希值。 例如&…

用斐波那契数列感受算法的神奇(21亿耗时0.02毫秒)

目录 一、回顾斐波那契数列 二、简单递归方法 &#xff08;一&#xff09;解决思路 &#xff08;二&#xff09;代码展示 &#xff08;三&#xff09;性能分析 三、采用递归HashMap缓存 &#xff08;一&#xff09;解决思路 &#xff08;二&#xff09;代码展示 &…

DelphiWebMVC对VUE导出包的支持

MVC框架除了本身对html文件的渲染输出&#xff0c;先开始对Hbuilder或VSCode 开发的VUE项目的导出包&#xff0c;开始支持导出包的部署。 这是一个Hbuilder 的vue 项目&#xff0c;导出包为&#xff1a; 这是一个DelphiWeb项目&#xff0c; 这是DelphiWeb项目的运行目录&#x…

SSRF—服务器请求伪造 漏洞详解

漏洞简述 SSRF(Server-Side Request Forgery:服务器端请求伪造) 是一种由攻击者构造&#xff0c;由服务端发起请求的一个网络攻击&#xff0c;一般用来在外网探测或攻击内网服务&#xff0c;其影响效果根据服务器用的函数不同&#xff0c;从而造成不同的影响。 SSRF 形成的原因…

Web前端开发之HTML_3

标签之表格Form表单块元素与行内元素&#xff08;内联元素&#xff09;HTML5新增标签 1. 标签之表格 <table></table> 1.1 表格&#xff08;快速生成&#xff1a;table>tr*2>td*3{单元格}&#xff09; 表格由行、列、单元格组成。单元格有同行等高、同列等…

如何防止重复下单

文章目录 一&#xff1a;重复下单与幂等性问题二&#xff1a;如何解决重复下单问题三&#xff1a;总结 一&#xff1a;重复下单与幂等性问题 用户在下单页面进行下单时&#xff0c;由于用户点击下单按钮 多次 、或者 重试策略导致在订单服务中接收到了 两次同样 的下单请求。 …

kubeadmin搭建自建k8s集群

一、安装要求 在开始之前&#xff0c;部署Kubernetes集群的虚拟机需要满足以下几个条件&#xff1a; 操作系统 CentOS7.x-86_x64硬件配置&#xff1a;2GB或更多RAM&#xff0c;2个CPU或更多CPU&#xff0c;硬盘30GB或更多【注意master需要两核】可以访问外网&#xff0c;需要…

Linux——(grep指令及zip/tar压缩指令)

1.grep指令 语法&#xff1a; grep【选项】查找字符串 文件 功能&#xff1a; 在文件中搜索字符串&#xff0c;将找到的行打印出来 常用选项&#xff1a; -i &#xff1a;忽略大小写&#xff0c;所以大小写视为相同 -n &#xff1a; 顺便输出行号 -v &#xff1a;反向选择&…

公司服务器中的kafka消息中间件挂了,我是如何修复的?

今天的公司的system系统服务在运行过程中&#xff0c;提示连接不上kafuka的消息中间件。但是负责kafka的同事已经离职了&#xff0c;询问公司开发也不知道如何处理&#xff0c;我是如何重启kafka消息中间件使system系统服务正常运行&#xff1f; 查看kafka的安装位置 在下面的…

六个月滴滴实习:轻松、舒心又高薪!

不久前&#xff0c;一位在滴滴后端研发部门实习了六个月的小伙伴在牛客网上分享了他的实习体验&#xff0c; 作者详细描述了他在滴滴的实习生活。 从他的叙述中&#xff0c;我们可以感受到与其他互联网公司相比&#xff0c;滴滴的工作环境显得相对轻松和舒适。 他提到&#x…

Qt的坐标转换

1. QPoint mapToGlobal(const QPoint &point) const; 用法&#xff1a;将部件内的一个点的局部坐标转换为全局屏幕坐标。 使用场景&#xff1a;当你需要知道部件内某个点在屏幕上的确切位置时。 示例&#xff1a; QWidget widget; QPoint localPos(10, 10); QPoint glo…

ADOP告诉您光分路器的类型?如何选择?

&#x1f331;在无源光网络&#xff08;PON&#xff09;中&#xff0c;光分路器作为核心光器件&#xff0c;可帮助多个用户共享一个PON接口&#xff0c;最大限度地扩展了光网络性能。那么你知道目前市面上有多少种光分路器吗&#xff1f;该如何选择呢&#xff1f; 阅读本文后&a…

python爬虫 - 爬取html中的script数据(股票行情信息 - 雪球网 )

文章目录 1. 分析页面内容数据格式2. 使用re.findall方法&#xff0c;爬取股票行情&#xff08;返回信息异常&#xff09;3. 使用re.findall方法&#xff0c;爬取股票行情&#xff08;正常&#xff09;4. 使用re.search 方法&#xff0c;爬取股票行情&#xff08;返回信息异常&…

神州三层交换机DHCPv6中继服务配置

配置如下: SWA: CS6200-28X-EI>ena CS6200-28X-EI#conf CS6200-28X-EI(config)#host SWA SWA(config)#service dhcpv6 SWA(config)#vlan 50;60;100

HiveQL-DML总览

一、LOAD Hive在将数据加载到表中时不进行任何转换。加载操作目前是纯拷贝/移动操作&#xff0c;将数据文件移动到与配置单元表相对应的位置。 语法&#xff1a; load data [local] inpath filepath [overwrite] into table tablename [partition (partcol1val1, partcol2val…

2024采用JSP的酒店客房管理系统源代码+毕业设计论文+开题报告+答辩PPT

点击下载源码 摘 要 计算机技术发展至今已走过了半个多世纪之久&#xff0c;现在各个阶层、各个领域都使用着计算机&#xff0c;在这个快节奏的时代中它已经成为了社会生活的必需品。它的出现是现代社会进步&#xff0c;科技发展的标志。同时现代化的酒店组织庞大&#xff0c;…