机器学习中常见的算法的优缺点之决策树

2020/09/28 06:35

决策树在机器学习中是一个十分优秀的算法，在很多技术中都需要用到决策树这一算法，由此可见，决策树是一个经典的算法，在这篇文章中我们给大家介绍决策树算法的优缺点，希望这篇文章能够更好的帮助大家理解决策树算法。

其实决策树倍受大家欢迎的原因就是其中的一个优势，那就是易于解释。同时决策树可以毫无压力地处理特征间的交互关系并且是非参数化的，因此你不必担心异常值或者数据是否线性可分。但是决策树的有一个缺点就是不支持在线学习，于是在新样本到来后，决策树需要全部重建。另一个缺点就是容易出现过拟合，但这也就是诸如随机森林RF之类的集成方法的切入点。另外，随机森林经常是很多分类问题的赢家，决策树训练快速并且可调，同时大家无须担心要像支持向量机那样调一大堆参数，所以在以前都一直很受欢迎。

那么决策树自身的优点都有什么呢，总结下来就是有六点，第一就是决策树易于理解和解释，可以可视化分析，容易提取出规则。第二就是可以同时处理标称型和数值型数据。第三就是比较适合处理有缺失属性的样本。第四就是能够处理不相关的特征。第五就是测试数据集时，运行速度比较快。第六就是在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

那么决策树的缺点是什么呢？总结下来有三点，第一就是决策树容易发生过拟合，但是随机森林可以很大程度上减少过拟合。第二就是决策树容易忽略数据集中属性的相互关联。第三就是对于那些各类别样本数量不一致的数据，在决策树中，进行属性划分时，不同的判定准则会带来不同的属性选择倾向；信息增益准则对可取数目较多的属性有所偏好，而增益率准则CART则对可取数目较少的属性有所偏好，但CART进行属性划分时候不再简单地直接利用增益率尽心划分，而是采用一种启发式规则。

通过上述的内容相信大家已经知道了决策树的优点和缺点了吧，大家在学习或者使用决策树算法的时候可以更好的帮助大家理解决策树的具体情况，只有了解了这些算法，我们才能够更好的使用决策树算法。