spark MLlib决策树
spark MLlib决策树
jhonephone 发表于3年前
spark MLlib决策树
  • 发表于 3年前
  • 阅读 127
  • 收藏 0
  • 点赞 0
  • 评论 0

移动开发云端新模式探索实践 >>>   

1. 决策树以及它的组合模型是在机器学习中常用的分类和回归方法。决策树结果容易解释,处理分类特征,可拓展到多类。决策树是一个贪婪算法,递归的二分特征空间。决策树预测具有相同的叶子节点的属于同一类标签。每次划分的时候,都从一系列可能的划分中选择最佳的,使得根节点的信息增益最大,argmax(s):  IG(D,s)。

IG(D,s)=Impurity(D) - a*Impurity(D1eft) - (1-a)*Impurity(Dright),

Impurity可以取为信息熵,在概率分布为均匀分布时取得最大值。

2. 连续空间特征分区,对于小的数据集,连续空间的特征分区都是单个值。在某些实现中,会首先对特征值进行排序,已进行更快捷的树计算。当数据量过大时,对全部的数据排序代价较高,这里的实现首先采样取一部分数据排序,排序好的数据形成一个个的区间,称为bin,可以指定maxBins参数设置最大的分区数,默认为100。

3. 离散空间特征分区,对于包含M个可能值的离散空间,可能有2^(M-1)-1个候选解。当2^(M-1)-1大于maxBins时,我们采用二划分时相同的启发术,对M个类别特征按照Impurity进行排序。结果分成M-1个划分。

  • 打赏
  • 点赞
  • 收藏
  • 分享
共有 人打赏支持
粉丝 3
博文 19
码字总数 24506
×
jhonephone
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: