0%

决策树

决策树

决策树建树的基本流程

1

划分选择(为使”纯度”越来越高)

  • 信息增益

    信息熵为(越小则纯度越高)

    信息增益为

    缺点:对于可以取值数目较多的属性有所偏好。

  • 信息增益率(克服上述所述缺点)

    其中

    称为属性a的固有属性值

  • Gini系数

    反应了从数据集D中随机抽取两个样本,其类别标记不一致的概率

    基尼指数(选择最小的)

剪枝处理

  • 预剪枝

    • 若当前划分不能带来决策树泛化性能的提升,则停止划分并将当前结点标记为叶结点
  • 后剪枝

    • 自底向上对非叶子节点进行考察,若将该节点对应的子树替换为叶结点能带来泛化能力的提升,则将该子树替换为叶结点

    • 代价复杂性剪枝:对于每个非叶子节点计算它的表面误差率增益值$\alpha$。

      $|N_{T_t}|$为子树中包含的叶子结点的个数

      $R(t)=r(t)*p(t)$为结点的误差代价,如果该结点被剪枝,r(t)为结点t的误差率;p(t)为结点t上的数据占所有数据的比例

      $R(T_t)$是子树Tt的误差代价,如果该节点不被剪枝。它等于子树Tt上所有叶子节点的误差代价之和。

      找到$\alpha$值最小的非叶子节点,令其左右孩子为NULL

    • 最小误差剪枝

    • 悲观误差剪枝