吃瓜教程Task3_学习笔记

第4章 决策树

基本流程

决策树是一类常见的机器学习方法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。我们以西瓜书中的西瓜问题为例来形象化一棵决策树。
QQ图片20220623170201

  • 决策树学习的基本算法
    QQ截图20220623170303

划分选择

  • 信息熵:是度量样本集合纯度最常用的一种指标。
    QQ截图20220623170540
  • 信息增益QQ截图20220623171105
    一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。
  • 增益率QQ截图20220623171311
  • 基尼指数QQ截图20220623171422

剪枝处理

剪枝是决策树学习算法对付“过拟合”的主要手段。在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多,这时就可能因训练样本学得“太好”了,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此,可通过主动去掉一些分支来降低过拟合的风险。
以判别西瓜的未剪枝决策树为例。
QQ截图20220623175209

  • 预剪枝:预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。
    QQ截图20220623175451
  • 后剪枝:后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。
    QQ截图20220623175520
浙ICP备19012682号