引言

俗话说得好，三个臭皮匠赛过诸葛亮。更主要的是三个臭皮匠好找，一个诸葛亮太难找了。在机器学习里面也是一样的。我们可以设计出各种分类器，然而分类器的效果确实不一而同的，相对而言，效果较差的分类器比效果很好的分类器更好设计，后者很多时候可遇而不可求。那么是否有什么方法能够将一系列的弱分类器组合，使其能够提示分类效果呢？这就是机器学习里面的提升学习。而且后来Schapire证明强可学习与弱可学习是等价的，这个就很完美了，这样我们就有了理论指导，通过一系列的弱学习算法可以提升为强学习算法，adaboost就是最重要的一个例子。

提升算法的思想

提升算法通过提高前面分类错误的样本的权重，是后面的分类器更加关注这些错误样本的分类，进而能够分而治之，使分类器重点关注不同的样本。

adaboost算法

下面我们先来介绍adaboost算法，后面再对算法做推导解释。（猜想adaboost算法应该是先提出的算法，后续才找个合理的解释。）

输入

训练数据集 $D = \left \{ (x_1,y_1),...,(x_N,y_N) \right \}$

弱学习算法

算法过程

初始化训练数据的权值分布为 $W_1 = (w_{11},...,w_{1N})$ 其中 $W_{1i} = \frac{1}{N}$

进行迭代训练，即对 $m = 1,2,...,M$

使用权重为 $W_m$ 的训练数据训练学习器 $G_m(x)$

计算 $G_m(x)$ 上的训练误差率 $e_m = P(G_m(x_i) \neq y_i) = \sum_{i=1}^N w_{mi}I(G_m(x_i) \neq y_i)$

计算 $G_m(x)$ 的系数 $\alpha_m = \frac{1}{2} log \frac{1-e_m}{e_m}$

更新训练集的权重 $W_{m+1} = (w_{m+1,1},...,w_{m+1,N})$ 其中 $w_{m+1,1} = \frac{x_{mi}}{Z_m} exp(- \alpha_my_iG_m(x_i))$ ,其中 $Z_m$ 是规范化因子，即 $Z_m = \sum^N_{i=1} w_{mi}exp(- \alpha_my_iG_m(x_i))$

构建分类器的线性组合 $f(x) = \sum^{M}_{m=1} \alpha_mG_m(x)$

得到最终的分类器为 $G(x) =sign(f(x)) = sign( \sum^{M}_{m=1} \alpha_mG_m(x) )$

输出

最终的分类器 $G(x)$

算法很简单也很好理解，同时很好用，而且效果确实很好，这就够了。

本质上讲权重在 $e_m$ 出影响了分类器的选择，进而影响了数据分布，在这里将去权重间接的引入到了数据集中，影响了训练数据的分布。在一些书中说通过改变权重影响训练数据集的分布，其实就是这个意思，并不是真的修改了数据集的分布，而是通过误差率选择了分类效果最好的学习器，使分类器能够偏向去正确分类之前错误分类的数据。

过拟合

有了算法，那么还有一个问题，就是算法的过拟合问题。adaboost有很强的抗过拟合能力，然而很遗憾的是，针对adaboost问题的抗过拟合原因，至今没有一个比较完美的解释，虽然大牛们做了很多工作，但是依旧还是有很大的困难。一种猜想是通过多种分类器的组合，天然的引入了多样性，使算法不易过拟合。

算法解释

上面我们提出了算法，这里我们尝试利用数学推导来解释一下为什么adaboost这样设计是合理的。

对于adaboost可以理解为算法模型为加法模型，损失函数为指数函数，学习算法为前向分步算法时的二分类学习算法

给定加法模型 $f(x) = \sum^{M}_{m=1} \beta_mb(x_i,\gamma_m)$ ,损失函数为 $L(x,f(x))$ ,则问题转化为最小化损失函数，即 $min_{\beta_m,\gamma_m}{\sum_{i=1}^N L(y_i,\sum^{M}_{m=1} \beta_mb(x_i,\gamma_m))}$

对于这个公式，基本上没有办法直接求得解析解，因此我们可以利用前向分步算法来近似求解。

前向分步算法

前向分步算法的思想就是每次只优化一个基函数机器系数，逐步逼近目标，最后得到目标的近似值。

初始化 $f(x) = 0$

对 $m = 1,2,...,M$

极小化损失函数 $(\beta_m,\gamma_m) = arg min_{\beta,\gamma} (\sum_{i=1}^{N} L (y_i,f_{m-1}(x_i) + \beta b(x_i,\gamma)))$

更新 $f_m(x) = f_{m-1} + \beta_mb(x,\gamma_m)$

得到加法模型 $f(x) = \sum_{m=1}^M \beta_mb(x,\gamma_m)$

adaboost算法解释

由前文，adaboost算法的分类器如下：

$f(x) = \sum^{M}_{m=1} \alpha_mG_m(x)$

根据数学归纳法，假设 $m-1$ 轮，根据前向分步算法，已经得到：

$f_{m-1}(x) = f_{m-2}(x) + \alpha_{m-1}G_{m-1}(x) $$，则在第$$ m $$轮有： $$ f_{m}(x) = f_{m-1}(x) + \alpha_{m}G_{m}(x)$

目标：得到 $\alpha_m,G_m(x)$ 使得 $f_{m}(x)$ 在训练集上的指数损失 $L(y,f(x)) = exp[-yf(x)]$ 最小。

即 $(\alpha_{m},G_m(x)) = arg min_{\alpha,G} \sum_{i=1}^{N} exp( - y_i (f_{m-1}(x_i)+\alpha_mG_m(x)))$

前一项 $\bar{w}_{mi} = exp( - y_i f_{m-1}(x_i))$ 跟最小化 $(\alpha_{m},G_m(x))$ 无关，

因此

$(\alpha_{m},G_m(x)) = arg min_{\alpha,G} \sum_{i=1}^{N} \bar{w}_{mi} exp( - y_i \alpha_mG_m(x))$

则最小的 $G_m(x)$ 为：

$G_m^*(x) = arg min_{G} \sum_{i=1}^{N} \bar{w}_{mi} I( y_i \neq G(x_i))$

对于 $\alpha^*_m$ ，有：

$\sum_{i=1}^{N} \bar{w}_{mi} exp( - y_i \alpha_mG_m(x)) = \sum_{y_i \in G_m(x_i)} \bar{w}_{mi} e^{-\alpha} + \sum_{y_i \notin G_m(x_i)} \bar{w}_{mi} e^{\alpha}$ $= (e^{\alpha} - e^{-\alpha})\sum_{i=1}^N \bar{w}_{mi} I(y_i \neq G(x_i)) +e^{-\alpha} \sum_{i=1}^N \bar{w}_{mi}$

对 $\alpha$ 进行求导,有:

$(e^{\alpha} + e^{-\alpha})\sum_{i=1}^N \bar{w}_{mi} I(y_i \neq G(x_i)) -e^{-\alpha} \sum_{i=1}^N \bar{w}_{mi} = 0$

可以得到 $\alpha_m^* = \frac{1}{2} log(\frac{\sum \bar{w}_{mi}}{\sum \bar{w}_{mi}I(y_i \neq G(x_i)) } - 1)$

令 $e_m = \frac{\sum \bar{w}_{mi}I(y_i \neq G(x_i))}{\sum \bar{w}_{mi} } = w_{mi}I(y_i \neq G(x_i))$

有： $\alpha_m^* = \frac{1}{2} log \frac{1-e_m}{e_m}$

${\alpha_m}$ 的更新与adaboost算法的 ${\alpha_m}$ 的更新形式一致，因此adaboost可以看做是算法模型为加法模型，损失函数为指数函数，学习算法为前向分步算法时的二分类学习算法