第七章:贝叶斯分类器
7.1 贝叶斯决策论基础
核心概念:贝叶斯分类器是基于概率来做分类决策的。简单来说,就是根据已知的一些条件,去计算每个类别出现的概率,然后选择概率最大的那个类别作为分类结果。就好比你在猜一个盒子里装的是红球还是蓝球,你可以根据之前从这个盒子里摸球的一些经验(比如摸出红球的次数多),来判断这次盒子里更有可能是红球还是蓝球。
例子:假如你要判断一幅图片是猫还是狗。你知道在所有的图片数据里,猫的图片占比是 40%,狗的图片占比是 60%。对于这张待判断的图片,你观察到它有尖尖的耳朵这个特征。在猫的图片中,有尖尖耳朵的图片占猫图片总数的 70%,而在狗的图片中,有尖尖耳朵的图片只占狗图片总数的 30%。通过贝叶斯的方法,你就可以计算出这张图片是猫和是狗的概率,然后选择概率大的类别作为结果。
7.2 朴素贝叶斯分类器
核心概念:朴素贝叶斯分类器是贝叶斯分类器中很常用的一种。它有个 “朴素” 的假设,就是认为数据的各个特征之间是相互独立的,互不影响。这样就可以简化计算概率的过程。
例子:还是以判断图片是猫还是狗为例。假设我们有三个特征:耳朵形状(尖或圆)、尾巴长度(长或短)、叫声(喵喵或汪汪)。朴素贝叶斯分类器假设这三个特征之间没有关系,比如耳朵形状不会影响尾巴长度,也不会影响叫声。这样在计算图片是猫或狗的概率时,就可以分别计算每个特征对于猫和狗的概率,然后把它们乘起来得到总的概率。例如,耳朵尖对于猫的概率是 0.8,尾巴长对于猫的概率是 0.6,喵喵叫对于猫的概率是 0.9,那么这张图片是猫的概率就是 0.8×0.6×0.9。
第八章:集成学习
8.1 个体与集成
核心概念:集成学习就是把好多 “小助手”(个体学习器)组合在一起,让它们一起工作,最后综合它们的结果来做出决策。就像你在做一道很难的数学题,你可以问好几个同学的意见,然后把他们的想法综合起来,可能就更容易找到正确答案。
例子:假设你要预测明天的天气是晴天还是雨天。有三个 “小助手”,第一个 “小助手” 是通过观察云的形状来预测,第二个 “小助手” 是根据温度变化来预测,第三个 “小助手” 是看风向来预测。最后把这三个 “小助手” 的预测结果综合起来,比如有两个 “小助手” 预测是晴天,一个预测是雨天,那么就倾向于认为明天是晴天。
8.2 Boosting 方法
核心概念:Boosting 方法是集成学习里的一种重要策略。它的思路是让各个 “小助手” 依次工作,后面的 “小助手” 会重点关注前面 “小助手” 做错的地方,然后努力把这些错误纠正过来。就像你考试后,老师会让你把错题整理出来,重点复习,下次考试就争取不再错这些题。
例子:假设有一个任务是识别图片中的水果是苹果、香蕉还是橙子。第一个 “小助手” 先工作,它可能把一些苹果误判成了橙子。然后第二个 “小助手” 开始工作,它就会更关注那些被第一个 “小助手” 误判的图片,努力把它们正确分类。这样依次进行,通过多个 “小助手” 的协作,整体的识别准确率就会提高。
8.3 Bagging 与随机森林
核心概念:Bagging 也是集成学习的一种方法。它是从原始数据中随机抽取一些数据子集,然后让每个 “小助手” 在不同的数据子集上进行训练,最后综合这些 “小助手” 的结果。随机森林则是 Bagging 方法的一种扩展,它的 “小助手” 都是决策树,并且在构建决策树时,还会随机选择一些特征来进行划分。
例子:比如有一堆水果图片,Bagging 方法会从这些图片中随机挑出几批图片,每批图片都不一样。然后让不同的 “小助手” 分别在这些不同批的图片上学习怎么识别水果。最后把这些 “小助手” 的判断结果综合起来。随机森林呢,就是这些 “小助手” 都是决策树,而且在构建决策树的时候,每次选择用来划分的特征也是随机选的,这样可以让决策树之间更不一样,综合起来的效果更好。
第九章:聚类
9.1 聚类的概念
核心概念:聚类就是把一堆东西按照它们的相似程度分成不同的组,组内的东西尽量相似,组与组之间尽量不同。就像你整理自己的玩具,把所有的玩偶放在一个箱子里,所有的积木放在另一个箱子里,这样就是把玩具进行了聚类。
例子:假设你有很多同学的照片,你可以根据同学们的发型、身高、衣服颜色等特征来给照片聚类。比如把所有扎马尾辫的同学照片放在一组,把所有穿红色衣服的同学照片放在另一组。这样分好组后,每个组里的同学在某些特征上是相似的。
9.2 k 均值聚类算法
核心概念:k 均值聚类算法是一种常用的聚类方法。它首先要确定要把数据分成几个组(k 个),然后随机选 k 个点作为 “中心”。接着把每个数据点都归到离它最近的 “中心” 所在的组,之后再重新计算每个组的新 “中心”,不断重复这个过程,直到 “中心” 不再变化或者变化很小,就完成了聚类。
例子:假设有一群同学在操场上自由活动,你要用 k 均值聚类算法把他们分成 3 组。首先你随机在操场上选 3 个点作为初始的 “中心”。然后每个同学都去找离自己最近的那个 “中心”,站到对应的组里。之后,你计算每个组同学的平均位置,把这个平均位置作为新的 “中心”。同学们再重新根据新的 “中心” 分组,不断重复这个过程,最后操场上的同学就会被分成相对合理的 3 组。
9.3 密度聚类
核心概念:密度聚类是根据数据点的分布密度来进行聚类。在数据点密集的地方形成一个聚类,而在数据点稀疏的地方把不同的聚类分开。就像在一片森林里,树木密集生长的地方可以看作是一个 “聚类”,而树木稀少的空地就是不同 “聚类” 之间的分隔。
例子:想象在一张地图上有很多城市,有些地方城市分布很密集,而有些地方城市很少。密度聚类就可以把城市密集的区域划分成一个聚类,比如长三角地区城市很多,就可以看作是一个聚类;而一些地广人稀的地方,城市分布稀疏,就把不同的城市密集区域分隔开,形成不同的聚类。