机器学习笔记(一)初识机器学习

server/2024/11/13 15:05:02/

1.定义

机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。

机器学习有下面几种定义:

(1)机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

(2)机器学习是对能通过经验自动改进的计算机算法的研究。

(3)机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。

简要概念:让机器具备找一个函式的能力

2.机器学习的三种不同任务

1. Regression(回归分析)

定义:回归分析是研究自变量与因变量之间数量变化关系的一种分析方法。它主要是通过因变量Y与影响它的自变量X(可以是一个或多个)之间的回归模型,衡量自变量X对因变量Y的影响能力,进而可以用来预测因变量Y的发展趋势。

特点

  • 预测目标是一个连续值。
  • 损失函数(如均方误差MSE)用于衡量预测值与真实值之间的差异。
  • 常见的回归模型包括线性回归、多项式回归等。

应用

  • 预测房价、股票价格等连续数值。
  • 在语音识别中预测声音信号的连续特征。

理解:找一个函式的任务

2. Classification(分类)

定义:分类是找一个函数判断输入数据所属的类别。这可以是二类别问题(是/不是),也可以是多类别问题(在多个类别中判断输入数据具体属于哪一个类别)。

特点

  • 预测目标是离散值,即类别标签。
  • 损失函数(如交叉熵损失)用于衡量预测类别与实际类别之间的差异。
  • 常见的分类算法包括逻辑回归、决策树、支持向量机(SVM)、神经网络等。

应用

  • 邮件分类(垃圾邮件/非垃圾邮件)。
  • 人脸识别、语音识别等。

理解:从设定好的选项中选择一个输出的任务

3. Structured Learning(结构化学习)

定义:结构化学习是一种让机器学会从数据中提取结构化信息的强大技术。它能够将输入数据与输出数据之间的结构关系建模,并通过训练模型来学习这种关系,从而实现对新的输入数据进行预测。

特点

  • 输入和输出都是具有结构化的对象(如序列、树、图等)。
  • 需要考虑输入与输出之间的复杂结构关系。
  • 常见的结构化学习方法包括条件随机场(CRF)、结构化感知机(Structured Perceptron)等。

应用

  • 自然语言处理中的命名实体识别、句法分析。
  • 计算机视觉中的图像分割、目标跟踪。

理解:让机器可以创造

3.机器如何找函式(Linear Models)

1.找未知的函式

y是已知的,b,w是未知的

2.定义Loss

是一个关于b,w的函式,可记作L(b,w),用来记录预期与实际值的差值平均数

取绝对值计算e的方式叫做MAE,除了这种方式还有如下方式:

Loss值越大及正确率越低,反之越高

3.找未知函数的最佳值

如下这张图是对不同w值和相同b值下Loss的变化曲线

通过观察斜率调整w的值找到函数最佳值,此外w调整的大小不仅仅受斜率大小的影响还受learning rate的影响,learning rate(hyperparameters)是预设的参数。当Loss值最低时即为最佳值。

当然变值一般有多个,此时遇上的不同在于斜率已不能作为观测值,通过微分参数作为观测值。

提升准确值:

通过对有规律周期的多组数据的w和x进行平均值求取提高准确率。

4.突破Linear Models限制

蓝色曲线作为linear models不能模拟实际的情况需要通过多个函式分段模拟,如下:

当然实际情况可能是曲线,这需要通过更多的分段来进行逼近

这种折线可通过一种曲线函数更好的表示,这种曲线叫做Sigmoid Function即s型的曲线

调整不同参数可将曲线进行不同方式的调整,如下:

通过以上知识,红色曲线可通过如下进行表示:

提升模型的准确性

公式的矩阵表示:


http://www.ppmy.cn/server/119714.html

相关文章

制作炫酷个人网页:用 HTML 和 CSS3 展现你的风格

你是否觉得自己的网站应该看起来更炫酷?今天我将教你如何使用 HTML 和 CSS3 制作一个拥有炫酷动画和现代设计风格的个人网页,让它在任何设备上看起来都无敌酷炫! 哈哈哈哈哈哈哈哈,我感觉自己有点中二哈哈哈哈~ 目录 炫酷设计理念构建 HTML …

51单片机应用开发---数码管的控制应用

实现目标 1、掌握数码管结构、驱动原理及应用; 2、掌握数码管段码表推导; 3、会编程让开发板8个数码管动态显示。 一、什么是数码管? 1.数码管定义 数码管,也称为LED数码管,基本单元是发光二极管(LED)。分为七段数…

接口测试(十二)

一、前台、后台、数据库三者关系 fiddler抓包是抓取客户端 --> 服务端 发送的的请求接口 开N个网页,只要有对后端发送请求, fiddler是无差别抓取 F12只抓取当前页面的数据 二、接口概念 接口是什么?— 传递数据的通道 测试系统组件间接口…

MVCC机制解析:提升数据库并发性能的关键

MVCC机制解析:提升数据库并发性能的关键 MVCC(Multi-Version Concurrency Control) 多版本并发控制 。 MVCC只在事务隔离级别为读已提交(Read Committed)和可重复读(Repeated Read)下生效。 MVCC是做什么用的 MVCC是为了处理 可重复读 和…

Redis的持久化和高可用性

目录 一、淘汰策略 1、背景 2、淘汰策略 二、持久化 1、背景 2、fork进程写时复制机制 3、Redis持久化方式 1、aof 2、rdb 三、高可用 1、主从复制 2、Redis哨兵模式 3、Redis cluster集群 一、淘汰策略 1、背景 首先Redis是一个内存数据库,将所有数…

VirtualFlow算例 | 水库大坝溃坝数值模拟

为充分利用水资源,人们在天然河流上修建了水库大坝,以达到调控洪水、发电、灌溉、供水、通航、旅游、渔业养殖等目的,水库大坝对人类社会和经济的发展起到了极其重要的推动作用,但是一旦由于某种原因发生溃坝失事,对下游所造成的生命和财产损…

蓝桥杯2024省C

P10898 [蓝桥杯 2024 省 C] 拼正方形 题目描述 小蓝正在玩拼图游戏,他有 7385137888721个 22的方块和 10470245 个 11 的方块,他需要从中挑出一些来拼出一个正方形,比如用 3 个 22 和 4 个 11 的方块可以拼出一个 44 的正方形,用…

深入Android UI开发:从自定义View到高级布局技巧的全面学习资料

在Android开发的世界中,UI设计和实现是吸引用户的关键。本文将为您介绍一套全面的Android UI开发学习资料,包括详细的学习大纲、PDF文档、源代码以及配套视频教程,旨在帮助您从自定义View到高级布局技巧,全面提升您的UI开发技能。…