作为“西瓜书”介绍机器学习模型的开篇,线性模型也是机器学习中最为基础的模型,很多复杂模型 均可认为由线性模型衍生而得,无论是曾经红极一时的支持向量机还是如今万众瞩目的神经网络,其中都有线性模型的影子。
本章的线性回归和对数几率回归分别是回归和分类任务上常用的算法,因此属于重点内容,线性判别 分析不常用,但是其核心思路和后续第 10 章将会讲到的经典降维算法主成分分析相同,因此也属于重点 内容,且两者结合在一起看理解会更深刻。
基本形式 第 1 章的 1.2 基本术语中讲述样本的定义时,我们说明了“西瓜书”和本书中向量的写法,列向量
行向量
属性数值化
为了能进行数学运算,样本中的非数值类属性都需要进行数值化。对于存在“序”关系的属性,可通过 连续化将其转化为带有相对大小关系的连续值;对于不存在“序”关系的属性,可根据属性取值将其拆解为多个属性
例如“西瓜书”中所说的“瓜类”属性,可将其拆解为“是否是西瓜”、“是否是南瓜”、“是否是黄 瓜”3 个属性,其中每个属性的取值为 1 或 0,1 表示“是”,0 表示“否”。
以上针对样本属性所进行的处理工作便是第 1 章 1.2 基本术语中提到的“特征工程”范畴
完成属性 数值化以后通常还会进行缺失值处理、规范化、降维等一系列处理工作。
由于特征工程属于算法实践过程 中需要掌握的内容,待学完机器学习算法以后,再进一步学习特征工程相关知识即可
符号“arg min”,其中“arg”是“argument”(参 数)的前三个字母,“min”是“minimum”(最小值)的前三个字母,该符号表示求使目标函数达到最小值的参数取值。这些的符号都是应用数学领域的一个分支——“最优化”中的内容。
首先铺垫讲解接下来以及后续内容将会用到的多元函数相关基础知识
n 元实值函数
凸集+凸集的几何意义
凸函数
梯度
Hessian 矩阵
对数几率回归
一般使用流程如下:首先在训练集上学得模型 y = 1 1 + e−(wTx+b) 然后对于新的测试样本 xi,将其代入模型得到预测结果 yi,接着自行设定阈值 θ,通常设为 θ = 0.5,如 果 yi ⩾ θ 则判 xi 为正例,反之判为反例。
无约束优化问题
不同于式 (3.7) 可求得闭式解,式 (3.27) 中的 β 没有闭式解,因此需要借助其他工具进行求解。求解 使得式 (3.27) 取到最小值的 β 属于最优化中的“无约束优化问题”,在无约束优化问题中最常用的求解算 法有“梯度下降法”和“牛顿法”
线性判别分析
一般使用流程如下:首先在训练集上学得模型 y = wTx向量内积的几何意义可知,y 可以看作是 x 在 w 上的投影,因此在训练集上学得的模型能够保证训练 集中的同类样本在 w 上的投影 y 很相近,而异类样本在 w 上的投影 y 很疏远。
然后对于新的测试样本 xi,将其代入模型得到它在 w 上的投影 yi,然后判别这个投影 yi 与哪一类投影更近,则将其判为该类。
最后,线性判别分析也是一种降维方法,但不同于第 10 章介绍的无监督降维方法,线性判别分析是 一种监督降维方法,即降维过程中需要用到样本类别标记信息。
多分类学习
“海明距离”是指两个码对应位置不相同的个数,“欧式距离”则是指两个向量之间 的欧氏距离
类别不平衡问题
“西瓜书”2.3.1 节中的“精度”通常无法满足该特殊任务的需求,例如“西瓜书”在本节第一段的举例:有 998 个反例和 2 个正例,若机器学习算法返回一个永远将新样本预测为反例的学习器则能达到 99.8% 的精度,显然虚高,因此在类别不平衡时常采用 2.3 节中的查准率、查全率和 F1 来度量学习器的性能。