机器学习——决策树（笔记）

一、认识树>决策树

1. 介绍

2. 树>决策树生成过程

二、sklearn中的树>决策树

1. tree.DecisionTreeClassifier（分类树）

（1）模型基本参数

（2）模型属性

（3）接口

2. tree.DecisionTreeRegressor（回归树）

3. tree.export_graphviz（将生成的树>决策树导出为DOT格式，画图专用）

4. 其他（补充）

三、树>决策树的优缺点

1. 优点

2. 缺点

一、认识树>决策树

1. 介绍

树>决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列 有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。树>决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。

2. 树>决策树生成过程

上面这组数据集为 一系列已知物种以及所属类别的数据。我们现在的目标是，将动物们分为哺乳类和非哺乳类。根据已经收集到的数据，树>决策树算法可以算出了下面的这棵树>决策树：

假如我们现在发现了一种新物种 A，它是冷血动物，体表带鳞片，并且不是胎生，我们就可以通过这棵树>决策树来判断它的 所属类别。

涉及关键概念：节点

① 根节点：没有进边，有出边。包含最初的，针对特征的提问。

② 中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。都是针对特征的提问。

③ 叶子节点：有进边，没有出边，每个叶子节点都是一个类别标签。

④ 子节点和父节点：在两个相连的节点中，更接近根节点的是父节点，另一个是子节点。

二、sklearn中的树>决策树

涉及模块：sklearn.tree

1. tree.DecisionTreeClassifier（分类树）

（1）模型基本参数

（2）模型属性

（3）接口

2. tree.DecisionTreeRegressor（回归树）

重要参数：criterion

回归树衡量分枝质量的指标，支持的标准有三种：

① 输入“mse”使用均方误差mean squared error（MSE），父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化 L2损失。

② 输入“friedman_mse”，使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差。

③ 输入“mae”使用绝对平均误差MAE （mean absolute error），这种指标使用叶节点的中值来最小化 L1损失。

3. tree.export_graphviz（将生成的树>决策树导出为DOT格式，画图专用）

4. 其他（补充）

① 信息熵的计算比基尼系数缓慢一些，因为基尼系数的计算不涉及对数。另外，因为信息熵对不纯度更加敏感，所以信息熵作为指标时，树>决策树的生长会更加“精细”，因此对于高维数据或者噪音很多的数据，信息熵很容易过拟合，基尼系数在这种情况下效果往往比较好。

② random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（比如鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

③ splitter也是用来控制树>决策树中的随机选项的，有两种输入值，输入“best”，树>决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入“random”，树>决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。

④ 在不加限制的情况下，一棵树>决策树会生长到衡量不纯度的指标最优，或者没有更多的特征可用为止，这样的树>决策树往往会过拟合。为了让树>决策树有更好的泛化性，需要要对树>决策树进行剪枝。剪枝策略对树>决策树的影响巨大，正确的剪枝策略是优化树>决策树算法的核心。

三、树>决策树的优缺点

1. 优点

    ① 易于理解和解释，因为树木可以画出来被看见。

    ② 需要很少的数据准备。其他很多算法通常都需要数据规范化，需要创建虚拟变量并删除空值等。但 sklearn中的树>决策树模块不支持对缺失值的处理。

    ③ 使用树的成本（比如说，在预测数据的时候）是用于训练树的数据点的数量的对数，相比于其他算法，这是一个很低的成本。

    ④ 能够同时处理数字和分类数据，既可以做回归又可以做分类。其他技术通常专门用于分析仅具有一种变量类型的数据集。

    ⑤ 能够处理多输出问题，即含有多个标签的问题（注意与一个标签中含有多种标签分类的问题区别开）

    ⑥ 是一个白盒模型，结果很容易能够被解释。如果在模型中可以观察到给定的情况，则可以通过布尔逻辑轻松解释条件。相反，在黑盒模型中（例如，在人工神经网络中），结果可能更难以解释。

    ⑦ 可以使用统计测试验证模型，这让我们可以考虑模型的可靠性。即使其假设在某种程度上违反了生成数据的真实模型，也能够表现良好。

2. 缺点

    ① 树>决策树学习者可能创建过于复杂的树，这些树不能很好地推广数据。这称为过度拟合。修剪，设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的。

    ② 树>决策树可能不稳定，数据中微小的变化可能导致生成完全不同的树，这个问题需要通过集成算法来解决。

    ③ 树>决策树的学习是基于贪婪算法，它靠优化局部最优（每个节点的最优）来试图达到整体的最优，但这种做法不能保证返回全局最优树>决策树。这个问题也可以由集成算法来解决，在随机森林中，特征和样本会在分枝过程中被随机采样。

    ④ 有些概念很难学习，因为树>决策树不容易表达它们，例如 XOR，奇偶校验或多路复用器问题。

    ⑤ 如果标签中的某些类占主导地位，树>决策树学习者会创建偏向主导类的树。因此，建议在拟合树>决策树之前平衡数据集。