机器学习故事汇-集成算法

2020/09/28 19:43

机器学习故事汇-集成算法

【咱们的目标】系列算法讲解旨在用最简单易懂的故事情节帮助大家掌握晦涩无趣的机器学习，适合对数学很头疼的同学们，小板凳走起！

今天咱们就来讨论一下传说中的集成算法，之前咱们讲的算法都是单兵作战的（单个模型得到结果），但是回过头来想一想现在是不是干啥都讲究个合作共赢，所以咱们的模型也是如此。单个算法确实势单力薄，假如我们可以把它们组合起来会不会得到更好的效果呢？（算法们要揭竿起义了，今亡亦死举大计亦死。。。编不下去了）

在集成算法中，有三个核心模块，咱们就一一道来，先来概述一下：

Bagging集成：并行的构造多个基础模型（随机森林），每一个基础模型都各自为政，然后把它们的结果求一个平均就好！

Boosting集成：串行的构造多个基础模型（Xgboost），每一个基础模型都要严格筛选，在前面的基础上加进来的新模型后，它们整体的效果起码得没加这个新的基础模型前要强吧！

Stacking集成：多种算法群殴一起上！选择多个机器学习算法做同一件事，最后把它们的结果合并就OK啦！

先来看看第一个家伙Bagging模型，其典型代表就是随机森立了，简单来说就是并行的训练一堆树模型，然后求其平均结果，在这里我们要讨论一个问题，就是每个树模型该怎么构造呢？如果不加入任何限制，那每个树模型不都差不多嘛，那最后的平均结果又会有什么变化呢？所以为了结果的泛化能力更强，必须要使得每个树模型表现出多样性，也就是尽可能的让每个树模型都不一样！

这该怎么做呢？什么影响模型呢？数据绝对是最大的影响因子，这里的森林很好理解了，就是把树放在一起，那么随机又是什么呢？为了保证每个树的多样性，在构建模型时，我们做了二重随机（我自创的词。。。）第一重就是对样本的选择，每次随机的有放回的选择部分样本作为一棵树的训练样本（比如选择百分之八十作为训练集）。第二重还要考虑特征了，既然样本数据能随机，那么特征也是一样的，每棵树选择的特征也是不一样的随机选择部分特征来建模！

随机的意义非常重要，这是随机森林的精神所在！

随机森林作为灰常经典的机器学习算法，优势自然少不了，当我们建模完之后，还可以对特征进行重要性评估，其实简单来说一个特征的重要与否可以取决于建模的时候如果把这个特征换成噪音特征再去看看结果的错误率是不是显著上升，如果显著上升，那么这个特征自然很重要，如果没变化，那这个特征就没啥用了，因为它和噪音没啥区别！

随机森林中树的个数是不是越多越好呢？理论上越多的树效果应该会更好吧，但是实际上我们把树的个数增加到一定的时候比如100棵了已经，再往上增加树的个数结果也只会发生小范围的浮动，基本也就稳定了！

Boosting集成中典型的代表就属Xgboost啦，一个大杀器，这个算法由于涉及的数学比较多，咱们后续来一个专题去讲Xgboost，我们先来看看简单些的Adaboost。

Adaboost算法概述来说就是，首选我有一个非常简单的模型，比如深度为1的树模型，然后我去预测一下结果，在结果中我发现某些样本预测错了，这个时候第二个简单的树模型就来了，还是同样的任务只不过数据的权重发生了变换，一开始所有的数据都是相同的权重，但是第二次会把前面那次预测错的数据的权重增大，相对来说预测对的数据的权重就会减小。说白了就是让后面的模型更注重我之前哪些数据分错了，这回好能分对它！（好比我们在考试前都会复习之前做错的题）

最后来看一下堆叠模型吧，社会我Stacking，人狠话不多，不需要多解释，做了一堆算法，然后把它们的结果堆叠起来，每个算法都有自己的预测结果，这些结果组合在一起那不相当于一个新的特征嘛，再把它们结果组成的特征去做一个分类或者回归，又得到了一个唯一的结果。