西瓜书学习笔记一引言基本术语机器学习周志华

第1章绪论

1.1引言

日常生活中有很多基于经验做出的预判，如判断天气、判断西瓜是否成熟。我们能做出有效的预判，是因为我们已经积累了许多经验，而通过对经验的利用，就能对新情况做出有效的决策。

机器学习它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，"经验"通常以"数据"形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生"模型" (model) 的算法，即"学习算法" (learning algorithm)。（[Mitchell, 1997J 给出了一个更形式化的定义假设用来评估计算机程序在某任务类上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。）

本书用"模型"泛指从数据中学得的结果。有文献用"模型"指全局性结果(例如一棵决策树)，而用"模式"指局部性结果(例如一条规则).

1.2基本术语

要进行机器学习，先要有数据。假定我们收集了一批关于西瓜的数据，例如(色泽=青绿;根蒂=蜷缩;敲声=浊响)， (色泽=乌黑;根蒂:稍蜷;敲声=沉闷)， (色泽=浅白;根蒂硬挺;敲声=清脆)，……，每对括号内是一条记录， "=”意思是"取值为"。

这组记录的集合称为一个"数据集" (data set) ，其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述，称为一个"示例" (instance) 或"样本" (sample)。反映事件或对象在某方面的表现或性质的事项，称为"属性" (attribute) 或"特征" (feature)；属性上的取值，称为"属性值" (attribute value)。属性张成的空间称为"属性空间" (attribute space) "样本空间" (sample space) 或"输入空间"。例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个 "特征向量" (feature vector)。

一般地，令 D = { $x_{1},x_{2},...,x_{m}$ }表示包含 m 个示例的数据集，每个示例由d个属性描述，，则每个示例 $x_{i} = (x_{i1}; x_{i2}; . . . ;x_{id})$ 是 d 维样本空间 $\chi$ 中的一个向量, $x_{i}\in \chi$ ，其中 $x_{ij}$ 是 $x_{i}$ 在第j个属性上的取值， d 称为样本 $x_{i}$ 的“维数”(dimensionality)。

从数据中学得模型的过程称为"学习" (learning) 或"训练" (training)，训练过程中使用的数据称为"训练数据" (training data) ，其中每个样本称为一个“训练样本" (training sample), 训练样本组成的集合称为"训练集" (training set).学得模型对应了关于数据的某种潜在的规律，因此亦称"假设" (hypothesis);这种潜在规律自身，则称为"真相"或"真实" (ground-truth) ，学习过程就是为了找出或逼近真相。本书有时将模型称为“学习器”(learner)。

关于示例结果的信息，例如"好瓜"，称为"标记”(lable)；拥有了标记信息的示例，则称为"样例" (example)。一般地，用( $x_{i},y_{i}$ )表示第 i 个样例，其中 $y_{i}\in \gamma$ 是示例 xi的标记，γ 是所有标记的集合，亦称标记空间(lable space)或输出空间。

若我们欲预测的是离散值，此类学习任务称为分类(classification)；若欲预测的是连续值，此类学习任务称为回归(regression)。对只涉及两个类别的二分类(binary classification)任务，通常称其中一个类为正类(positive class)，另一个类为反类(negative class)；设计多个类别时，则称为多分类(multi-class classification) 任务。

一般地，预测任务是希望通过对训练集{ ${(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m,y_{m}})}$ }进行学习，建立一个从输入空间 X 到输出空间 Y 的映射 f: $X \mapsto Y$ 。对二分类任务，通常令 Y={-1, +1} 或 {0, 1} ;对多分类任务， $\left | Y \right |$ >2；对回归任务， Y = $\mathbb{R}$ ， $\mathbb{R}$ 为实数集。

学得模型后，使用其进行预测的过程称为“测试”(testing)，被预测的样本称为“测试样本”（testing sample）。亦称“测试示例”(testing instance)或测试例。

我们还可以对西瓜做“聚类”（clustering），即将训练集中的西瓜分成若干组，每组称为一个“簇”（cluster）。这些自动形成的簇可能对应一些潜在的概念划分，例如“浅色瓜”、“深色瓜”。

根据训练数据是否用用标记信息，学习任务可大致划分为两大类：“监督学习”（supervised learning）和“无监督学习”（unsupervised learning），分类和回归是前者的代表，而聚类则是后者的代表。

需注意的是，机器学习的目标是使学得的模型能很好地适用于"新样本"，而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务，我们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于新样本的能力，称为"泛化" (generalization) 能力。通常假设样本空间中全体样本服从一个未知"分布" (distribution) 我们获得的每个样本都是独立地从这个分布上采样获得的，即"独立同分布" (independent and identically distributed ，简称 i.i.d.). 一般而言，训练样本越多，我们得到的关于的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型。