机器学习第四章:决策树
博客专区 > DDDDavid 的博客 > 博客详情
机器学习第四章:决策树
DDDDavid 发表于4个月前
机器学习第四章:决策树
  • 发表于 4个月前
  • 阅读 2
  • 收藏 0
  • 点赞 0
  • 评论 0

腾讯云 技术升级10大核心产品年终让利>>>   

4.1基本流程

基本思路:分而治之

导致递归返回的三种情形:

(1)  当前节点样本属于同一类别,无需划分;

(2)  当前属性集为空,或所有样本属性值相同,无法划分;

(3)  当前节点包含的样本集合为空,不能划分。

 

4.2划分选择

ID3决策树算法:以信息增益为准则

CART决策树:以“基尼指数”为准则

C4.5决策树算法:以信息增益的权重为准则,采用二分法对连续属性进行处理

多变量决策树:属性的线性组合,OC1,寻找每个属性的最有权值,局部优化再对分类边界随机扰动。

 

4.3剪枝处理

预剪枝:对划分前后的泛化性能进行估计,具有欠拟合风险;

后剪枝:欠拟合风险小,泛化性能较优,训练时间较长;

连续值处理:二分法

缺失值处理:赋予权重

多变量决策树:对属性进行线性组合

OC1:局部优化的基础上再对分类边界进行随机扰动

 

感知机树:结合决策树和神经网络

增量学习:ID4、ID5R、ITI等

 

随机森林算法:多棵树木组成森林,随机挑选树木,根据结果判断是为随机森林。

包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。

构建随机森林:数据的随机性选取,以及待选特征的随机选取。

首先,从原始的数据集中采取有放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。第二,利用子数据集来构建子决策树,将这个数据放到每个子决策树中,每个子决策树输出一个结果。最后,如果有了新的数据需要通过随机森林得到分类结果,就可以通过对子决策树的判断结果的投票,得到随机森林的输出结果了。

与数据集的随机选取类似,随机森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同,提升系统的多样性,从而提升分类性能。

共有 人打赏支持
粉丝 0
博文 4
码字总数 3947
×
DDDDavid
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: