【西瓜书《机器学习》七八九章内容通俗理解】

server/2025/3/1 8:12:54/

第七章:贝叶斯分类器

7.1 贝叶斯决策论基础

核心概念:贝叶斯分类器是基于概率来做分类决策的。简单来说,就是根据已知的一些条件,去计算每个类别出现的概率,然后选择概率最大的那个类别作为分类结果。就好比你在猜一个盒子里装的是红球还是蓝球,你可以根据之前从这个盒子里摸球的一些经验(比如摸出红球的次数多),来判断这次盒子里更有可能是红球还是蓝球。

例子:假如你要判断一幅图片是猫还是狗。你知道在所有的图片数据里,猫的图片占比是 40%,狗的图片占比是 60%。对于这张待判断的图片,你观察到它有尖尖的耳朵这个特征。在猫的图片中,有尖尖耳朵的图片占猫图片总数的 70%,而在狗的图片中,有尖尖耳朵的图片只占狗图片总数的 30%。通过贝叶斯的方法,你就可以计算出这张图片是猫和是狗的概率,然后选择概率大的类别作为结果。

7.2 朴素贝叶斯分类器

核心概念:朴素贝叶斯分类器是贝叶斯分类器中很常用的一种。它有个 “朴素” 的假设,就是认为数据的各个特征之间是相互独立的,互不影响。这样就可以简化计算概率的过程。

例子:还是以判断图片是猫还是狗为例。假设我们有三个特征:耳朵形状(尖或圆)、尾巴长度(长或短)、叫声(喵喵或汪汪)。朴素贝叶斯分类器假设这三个特征之间没有关系,比如耳朵形状不会影响尾巴长度,也不会影响叫声。这样在计算图片是猫或狗的概率时,就可以分别计算每个特征对于猫和狗的概率,然后把它们乘起来得到总的概率。例如,耳朵尖对于猫的概率是 0.8,尾巴长对于猫的概率是 0.6,喵喵叫对于猫的概率是 0.9,那么这张图片是猫的概率就是 0.8×0.6×0.9。

第八章:集成学习

8.1 个体与集成

核心概念:集成学习就是把好多 “小助手”(个体学习器)组合在一起,让它们一起工作,最后综合它们的结果来做出决策。就像你在做一道很难的数学题,你可以问好几个同学的意见,然后把他们的想法综合起来,可能就更容易找到正确答案。

例子:假设你要预测明天的天气是晴天还是雨天。有三个 “小助手”,第一个 “小助手” 是通过观察云的形状来预测,第二个 “小助手” 是根据温度变化来预测,第三个 “小助手” 是看风向来预测。最后把这三个 “小助手” 的预测结果综合起来,比如有两个 “小助手” 预测是晴天,一个预测是雨天,那么就倾向于认为明天是晴天。

8.2 Boosting 方法

核心概念:Boosting 方法是集成学习里的一种重要策略。它的思路是让各个 “小助手” 依次工作,后面的 “小助手” 会重点关注前面 “小助手” 做错的地方,然后努力把这些错误纠正过来。就像你考试后,老师会让你把错题整理出来,重点复习,下次考试就争取不再错这些题。

例子:假设有一个任务是识别图片中的水果是苹果、香蕉还是橙子。第一个 “小助手” 先工作,它可能把一些苹果误判成了橙子。然后第二个 “小助手” 开始工作,它就会更关注那些被第一个 “小助手” 误判的图片,努力把它们正确分类。这样依次进行,通过多个 “小助手” 的协作,整体的识别准确率就会提高。

8.3 Bagging 与随机森林

核心概念:Bagging 也是集成学习的一种方法。它是从原始数据中随机抽取一些数据子集,然后让每个 “小助手” 在不同的数据子集上进行训练,最后综合这些 “小助手” 的结果。随机森林则是 Bagging 方法的一种扩展,它的 “小助手” 都是决策树,并且在构建决策树时,还会随机选择一些特征来进行划分。

例子:比如有一堆水果图片,Bagging 方法会从这些图片中随机挑出几批图片,每批图片都不一样。然后让不同的 “小助手” 分别在这些不同批的图片上学习怎么识别水果。最后把这些 “小助手” 的判断结果综合起来。随机森林呢,就是这些 “小助手” 都是决策树,而且在构建决策树的时候,每次选择用来划分的特征也是随机选的,这样可以让决策树之间更不一样,综合起来的效果更好。

第九章:聚类

9.1 聚类的概念

核心概念:聚类就是把一堆东西按照它们的相似程度分成不同的组,组内的东西尽量相似,组与组之间尽量不同。就像你整理自己的玩具,把所有的玩偶放在一个箱子里,所有的积木放在另一个箱子里,这样就是把玩具进行了聚类。

例子:假设你有很多同学的照片,你可以根据同学们的发型、身高、衣服颜色等特征来给照片聚类。比如把所有扎马尾辫的同学照片放在一组,把所有穿红色衣服的同学照片放在另一组。这样分好组后,每个组里的同学在某些特征上是相似的。

9.2 k 均值聚类算法

核心概念:k 均值聚类算法是一种常用的聚类方法。它首先要确定要把数据分成几个组(k 个),然后随机选 k 个点作为 “中心”。接着把每个数据点都归到离它最近的 “中心” 所在的组,之后再重新计算每个组的新 “中心”,不断重复这个过程,直到 “中心” 不再变化或者变化很小,就完成了聚类。

例子:假设有一群同学在操场上自由活动,你要用 k 均值聚类算法把他们分成 3 组。首先你随机在操场上选 3 个点作为初始的 “中心”。然后每个同学都去找离自己最近的那个 “中心”,站到对应的组里。之后,你计算每个组同学的平均位置,把这个平均位置作为新的 “中心”。同学们再重新根据新的 “中心” 分组,不断重复这个过程,最后操场上的同学就会被分成相对合理的 3 组。

9.3 密度聚类

核心概念:密度聚类是根据数据点的分布密度来进行聚类。在数据点密集的地方形成一个聚类,而在数据点稀疏的地方把不同的聚类分开。就像在一片森林里,树木密集生长的地方可以看作是一个 “聚类”,而树木稀少的空地就是不同 “聚类” 之间的分隔。

例子:想象在一张地图上有很多城市,有些地方城市分布很密集,而有些地方城市很少。密度聚类就可以把城市密集的区域划分成一个聚类,比如长三角地区城市很多,就可以看作是一个聚类;而一些地广人稀的地方,城市分布稀疏,就把不同的城市密集区域分隔开,形成不同的聚类。


http://www.ppmy.cn/server/171502.html

相关文章

Spring 源码硬核解析系列专题(十):Spring Data JPA 的 ORM 源码解析

在前几期中,我们从 Spring 核心到 Spring Boot、Spring Cloud、Spring Security 和 Spring Batch,逐步揭示了 Spring 生态的多样性。在企业级开发中,数据访问是不可或缺的部分,而 Spring Data JPA 通过简化 JPA(Java Persistence API)操作,成为主流的 ORM 框架。本篇将深…

【Golang学习之旅】Go-zero + GORM:微服务架构中的 ORM 与数据库操作

文章目录 前言一、Go-zero 介绍与架构二、GORM介绍与使用三、Go-zero与GORM集成步骤1:在微服务中实现复杂的数据库操作步骤 2:Go-zero 与 GORM 的基本集成 四、复杂数据库操作案例4.1 事务管理与数据库回滚案例:创建用户与订单的事务管理 4.2…

matlab 七自由度车辆模型轮毂电机驱动电动汽车的振动分析

1、内容简介 matlab153-七自由度车辆模型轮毂电机驱动电动汽车的振动分析 可以交流、咨询、答疑 2、内容说明 略 3、仿真分析 略 4、参考论文 略

Git GitHub基础

git是什么? Git是一个分布式版本控制系统,用于管理源代码的变更。它允许多个开发者在同一个项目上协作,同时跟踪每个修改的历史记录。 关键词: 分布式版本控制软件 软件 安装到我们电脑上的一个工具 版本控制 例如论文&…

springboot、deepseek4j、bge-m3和milvus

1、pom <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 …

嵌入式硬件篇---数字电子技术中的时序逻辑

文章目录 前言简介1. 关键延迟时间的定义与作用(1) 传输延迟&#xff08;Propagation Delay&#xff09;定义作用示例 (2) 时钟到输出延迟&#xff08;Clock-to-Q Delay, Tcq&#xff09;定义作用示例 (3) 建立时间&#xff08;Setup Time, Tsetup&#xff09;定义作用示例 (4)…

Full GC 排查

在 Java 中&#xff0c;Full GC&#xff08;完全垃圾回收&#xff09;会对整个堆&#xff08;包括年轻代和老年代&#xff0c;甚至可能包括永久代/元空间&#xff09;进行垃圾回收&#xff0c;通常会导致较长的停顿&#xff08;STW&#xff0c;Stop-The-World&#xff09;。如果…

MyBatis基础模块-缓存模块

缓存模块 MyBatis作为一个强大的持久层框架,缓存是其必不可少的功能之一,Mybatis中的缓存分为一级缓存和二级缓存。但本质上是一样的,都是使用Cache接口实现的。缓存位于 org.apache.ibatis.cache包下。 通过结构我们能够发现Cache其实使用到了装饰器模式来实现缓存的处理。…