1.集成学习的一般结构?
(1)产生一组个体学习器
(2)用某些策略将个体学习器结合
2.(判断)集成学习主要分为并行算法和串行算法。其中随机森林属于串行算法,即每一颗树的学习受其他树学习的影响。F
串行:boosting(代表:Adaboost)
Adaboost的主要优点有:
Adaboost作为分类器时,分类精度很高
在Adaboost的框架下,可以使用各种回归分类模型来构建弱学习器,非常灵活。
作为简单的二元分类器时,构造简单,结果可理解。
不容易发生过拟合
Adaboost的主要缺点有:
对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性。
并行:bagging,随机森林
bagging是一种在原始数据集上,通过有放回抽样分别选出k个新数据集(自助法),来训练分类器的集成算法。分类器之间没有依赖关系。
随机森林属于bagging集成算法。通过组合多个弱分类器,集思广益,使得整体模型具有较高的精确度和泛化性能。
3.Bagging和Boosting算法的区别
(1)样本选择:
Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
(2)样例权重:
Bagging:使用均匀取样,每个样例的权重相等
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。
(3)预测函数:
Bagging:所有预测函数的权重相等。
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。
(4)并行计算:
Bagging:各个预测函数可以并行生成
Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。
(5)预测结果:
Bagging:趋于降低方差,使模型更稳定。(各个基学习器并行训练,互不干扰,因此每个基学习器的误差实现对独立的。)
Boosting:趋于降低偏差,模型准确率更高。(采用向前分布算法,后一个基学习器需要优化前一个学习器的残差,因此误差越来越小,准确率会更高)