1.集成学习的一般结构？

（1）产生一组个体学习器

（2）用某些策略将个体学习器结合

2.（判断）集成学习主要分为并行算法和串行算法。其中随机森林属于串行算法，即每一颗树的学习受其他树学习的影响。F

串行：boosting（代表：Adaboost）

Adaboost的主要优点有：

Adaboost作为分类器时，分类精度很高
在Adaboost的框架下，可以使用各种回归分类模型来构建弱学习器，非常灵活。
作为简单的二元分类器时，构造简单，结果可理解。
不容易发生过拟合
Adaboost的主要缺点有：

对异常样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性。

并行：bagging，随机森林

bagging是一种在原始数据集上，通过有放回抽样分别选出k个新数据集（自助法），来训练分类器的集成算法。分类器之间没有依赖关系。

随机森林属于bagging集成算法。通过组合多个弱分类器，集思广益，使得整体模型具有较高的精确度和泛化性能。

（1）样本选择：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。
Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
（2）样例权重：

Bagging：使用均匀取样，每个样例的权重相等
Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大。
（3）预测函数：

Bagging：所有预测函数的权重相等。
Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。
（4）并行计算：

Bagging：各个预测函数可以并行生成
Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。
（5）预测结果：

Bagging：趋于降低方差，使模型更稳定。（各个基学习器并行训练，互不干扰，因此每个基学习器的误差实现对独立的。）
Boosting：趋于降低偏差，模型准确率更高。（采用向前分布算法，后一个基学习器需要优化前一个学习器的残差，因此误差越来越小，准确率会更高）