【机器学习】：决策树模型

2023-02-09

AI模块

N 人看过

基本流程与特性

决策树是一类常见的机器学习算法。

一般的，决策树包含一个根节点、若干个内部节点和若干个叶结点。叶结点对应于决策结果，其他的每个结点则对应一个属性测试。

决策树的生成是一个递归过程，有三种情形会导致递归返回：

当前结点包含的样本全属于一个类别；
当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；
当前结点包含的样本集合为空，无法划分。

划分选择

决策树如何选择最优划分属性是非常重要的，我们当然希望决策树的分支结点所包含的样本尽可能属于同一个类别，即结点的纯度越来越高，于是我们引入一个信息熵的概念。

信息熵是度量样本集合纯度最常用的一种指标。假定当前样本集合中第类样本所占的比例为，则的信息熵定义为：

并且有：的值越小，的纯度越高。

信息增益是判断某个属性进行划分时，结点纯度提升多少的标准。一般而言，信息增益越大，意味着使用这个属性来进行划分所获得的纯度提升越大。著名的决策树学习算法就是以信息增益为准则来选择划分属性。我们假定离散属性有个可能的取值，若使用来对集合进行划分，则会产生个分支结点，其中第个分支包含了在所有属性上取值为的样本，记为，则属性对样本集进行划分所获得的的信息增益为：

然而，并不是所有的决策树都使用增益率作为最优划分属性的标准：

决策树算法使用：

决策树使用基尼系数：

剪枝处理

剪枝是决策树算法对付过拟合的主要手段，主要分为以下两种：

预剪枝：划分前进行估计，判断是否能对决策树带来泛化性能提升；
后剪枝：训练集生成一棵完整的决策树，然后自底向上的对非叶子结点进行考察。

决策树优缺点

优点

【机器学习】：决策树模型

基本流程与特性

划分选择

剪枝处理

决策树优缺点

优点

缺点

实战一手：心脏病预测

绘图

最大深度选取

特征权重比较

可视化决策树

完整代码如下：