集成学习

集成学习选择一个由一系列假设 $h_1,h_2,\cdots,h_n$ 构成的集合，通过平均投票或者其他方法将预测结果组合

假设集成学习通过简单投票法结合K个基分类器，若超过半数的基分类器正确，则集成分类就输出正确，即

h(x)=sign\left(\sum_i h_i(x)\right)

假定基分类器的错误率相互独立，若为 $\epsilon$ ，则集成后的错误率为

\sum_{k=0}^{K/2}{K\choose k}(1-\epsilon)^k\epsilon^{K-k}\leq\exp\left(-\dfrac12K(1-2\epsilon)^2\right)

随着 $K$ 增大，错误率将指数下降

自助聚合法（Bagging）

首先创建多个随机训练数据集（训练数据集的子集）。然后基于随机训练数据集建立多个基模型。最后，汇总这些基模型的结果，可使用平均或多数投票

Boosting 是一种迭代的集成学习方法，它的目标是让分类器（或者模型）在训练过程中重点关注那些难以分类的样本

具体做法是根据上一轮分类的结果，自适应地调整训练样本的权重，使得错误分类的样本权重变大，让分类器在下一轮中更关注这些难以分类的样本

AdaBoost 算法通过迭代训练多个弱分类器，每轮根据上轮分类结果调整样本权重，使错误分类的样本获得更高权重，从而在下一轮训练中被弱分类器重点关注。最终，所有弱分类器按其性能加权组合，形成一个强分类器。这个过程通过加权投票机制，将多个表现一般的弱分类器整合为一个高性能的强分类器

H_k(x)=sign\left(\sum_{k=1}^L\alpha_kh_k(x)\right)

随机森林是一种集成学习算法，主要通过多个决策树的组合来进行分类或回归。它的工作流程如下：

随机森林通过引入随机性（随机样本和随机特征），有效地降低了单个决策树过拟合的风险，并提高了模型的泛化能力

堆叠泛化（Stacking） 是一种集成学习方法，主要通过将不同类型的模型组合起来，进一步提升预测性能

堆叠泛化通过组合多种不同模型的优势，并用一个新的集成模型学习如何整合它们的结果，从而减少偏差，提升预测效果，通常能优于单个模型的性能