Voting

针对分类问题，多个模型投票，少数服从多数，得到最终的预测结果。

选择模型时，要求模型是弱相关性的。

Averaging

针对回归问题，多个模型求（加权）均值，模型系数可以通过网格搜索获取。

二者本质相同，混叫。

整体架构如下：

stacking整体架构

其本质是使用模型对数据特征进行编码，从而得到新的特征，基于新特征，再训练模型进行最终预测。

生成新特征
$n$ $n \times 1$ $m$ $n \times m$ 的新特征数据。
对测试数据，每一折都会对全量数据进行预测，可以采用取平均的方式得到对应的全量测试数据的预测结果。
下图为1个模型得到的新特征数据：
预测

基于新的特征，训练新的模型，然后对新测试数据特征进行预测，得到最终的预测结果。

下图展示的是整体Stacking过程：经过LR、RF、GBDT共3个模型生成新特征数据，然后再训练XGB模型并进行预测。

stacking2

非交叉堆叠。整体做法和Stacking类似，不同之处是Blending不做交叉验证，在第一层模型训练时，将训练数据按照一定比例切分，比如7:3，70%的数据用作训练，30%的数据用作验证，然后将验证结果作为第二层模型的训练特征。

由 Yoav Freund 和 Robert Schapire 提出，两人因此获得了哥德尔奖。

模型集成的一种宏方法，目的是将若干个弱学习器组合为一个强学习器，核心是如何计算样本权重和学习器权重：

串行训练弱学习器；
权重调整
- 调整弱学习器权重：根据弱学习的分类误差率调整该学习器的权重；
- 调整样本权重：每一轮训练完成后，根据当前弱学习器的分类结果调整样本的权重，即训练正确的样本降低权重，训练错误的样本提高权重；
将若学习器组合为强学习器。

首先，定义如下符号：

$h^t$ $t$ $1 \le t \le T$
$\alpha ^t$ $t$ 轮弱学习器的权重
$w_i ^t$ $t$ $i$ $1 \le i \le N$
$y_i$ $i$ 个样本的真实值
$\varepsilon ^t$ $t$ 轮的分类误差率
$I(y \neq \hat{y})$ $y$ $\hat{y}$ 时为1，否则为0
$\mathbf{sign}(x)$ ：指示函数
$\begin{matrix} (1) & \begin{matrix} sign (x) = {\begin{matrix} 1 x > 0 \\ 0 x = 0 \\ - 1 x < 0 \end{matrix} \end{matrix} \end{matrix}$

下图为AdaBoost的过程图例（分类问题）：

AdaBoost

$y \in (1, -1)$ )为例，开始AdaBoost的训练过程：

初始化训练数据的权值分布
$W^t = (w^t_1,w^t_2, \cdots, w^t_N)$ $t=1$
$t=1,2,\cdots,T$
- $W^t$ $h^t$
- $h^t(x)$ 在训练数据上的分类误差率
  $\begin{matrix} (2) & ε^{t} = \sum_{i = 1}^{N} P (h^{t} (x) \neq y_{i}) = \sum_{i = 1}^{N} w_{i}^{t} I (h^{t} (x_{i}) \neq y_{i}) = \sum_{i \in e r r} w_{i}^{t} \end{matrix}$
  由上式可知，分类误差率等于预测错误样本的权重。
- $h^t$ 的权重
  $\begin{matrix} (3) & α^{t} = \frac{1}{2} \ln \frac{1 - ε^{t}}{ε^{t}} \end{matrix}$
- 更新训练数据的权值分布
  $\begin{matrix} (4) & \begin{matrix} w_{i}^{t + 1} = \frac{w_{i}^{t}}{Z^{t}} e^{- α^{t} y_{i} h^{t} (x_{i})} \\ Z^{t} = \sum_{i = 1}^{N} w_{i}^{t} e^{- α^{t} y_{i} h^{t} (x_{i})} \end{matrix} \end{matrix}$
构建弱分类器的线性组合
$\begin{matrix} (5) & f (x) = \sum_{t = 1}^{T} α^{t} h^{t} (x) \end{matrix}$
得到最终的分类器：
$\begin{matrix} (6) & H (x) = sign (f (x)) \end{matrix}$

$Z^t$
$\begin{matrix} (7) & \begin{aligned} Z^{t} & = \sum_{i = 1}^{N} w_{i}^{t} e^{- α^{t} y_{i} h^{t} (x_{i})} \\ = \sum_{i \in c o r r} w_{i}^{t} e^{- α^{t}} + \sum_{i \in e r r} w_{i}^{t} e^{α^{t}} \\ = (1 - ε^{t}) e^{- α^{t}} + ε^{t} e^{α^{t}} \\ = (1 - ε^{t}) \sqrt[2]{\frac{ε^{t}}{1 - ε^{t}}} + ε^{t} \sqrt[2]{\frac{1 - ε^{t}}{ε^{t}}} \\ = 2 \sqrt[2]{ε^{t} (1 - ε^{t})} \end{aligned} \end{matrix}$
简化样本权重
$\begin{matrix} (8) & \begin{aligned} w_{i}^{t + 1} & = \frac{w_{i}^{t}}{Z^{t}} e^{- α^{t} y_{i} h^{t} (x_{i})} \\ = {\begin{array}{c} \frac{w_{i}^{t}}{Z^{t}} e^{- α^{t}} y_{i} = h^{t} (x_{i}) \\ \frac{w_{i}^{t}}{Z^{t}} e^{α^{t}} y_{i} \neq h^{t} (x_{i}) \end{array} \\ = {\begin{array}{c} \frac{w_{i}^{t}}{Z^{t}} \sqrt[2]{\frac{ε^{t}}{1 - ε^{t}}} y_{i} = h^{t} (x_{i}) \\ \frac{w_{i}^{t}}{Z^{t}} \sqrt[2]{\frac{1 - ε^{t}}{ε^{t}}} y_{i} \neq h^{t} (x_{i}) \end{array} \\ = {\begin{array}{c} \frac{w_{i}^{t}}{2 (1 - ε^{t})} y_{i} = h^{t} (x_{i}) \\ \frac{w_{i}^{t}}{2 ε^{t}} y_{i} \neq h^{t} (x_{i}) \end{array} \end{aligned} \end{matrix}$
有意思的事情
对于预测正确的样本，其更新后的样本权重之和为0.5：
$\begin{matrix} (9) & \begin{aligned} \sum_{i \in c o r r} \frac{w_{i}^{t}}{2 (1 - ε^{t})} & = \frac{1}{2 (1 - ε^{t})} \sum_{i \in c o r r} w_{i}^{t} \\ = \frac{1}{2 (1 - ε^{t})} (1 - ε^{t}) \\ = \frac{1}{2} \end{aligned} \end{matrix}$
对于预测错误的样本，结论一样。