文档章节

spark MLlib决策树

jhonephone
 jhonephone
发布于 2014/12/12 17:33
字数 381
阅读 131
收藏 0

1. 决策树以及它的组合模型是在机器学习中常用的分类和回归方法。决策树结果容易解释,处理分类特征,可拓展到多类。决策树是一个贪婪算法,递归的二分特征空间。决策树预测具有相同的叶子节点的属于同一类标签。每次划分的时候,都从一系列可能的划分中选择最佳的,使得根节点的信息增益最大,argmax(s):  IG(D,s)。

IG(D,s)=Impurity(D) - a*Impurity(D1eft) - (1-a)*Impurity(Dright),

Impurity可以取为信息熵,在概率分布为均匀分布时取得最大值。

2. 连续空间特征分区,对于小的数据集,连续空间的特征分区都是单个值。在某些实现中,会首先对特征值进行排序,已进行更快捷的树计算。当数据量过大时,对全部的数据排序代价较高,这里的实现首先采样取一部分数据排序,排序好的数据形成一个个的区间,称为bin,可以指定maxBins参数设置最大的分区数,默认为100。

3. 离散空间特征分区,对于包含M个可能值的离散空间,可能有2^(M-1)-1个候选解。当2^(M-1)-1大于maxBins时,我们采用二划分时相同的启发术,对M个类别特征按照Impurity进行排序。结果分成M-1个划分。

© 著作权归作者所有

共有 人打赏支持
jhonephone
粉丝 3
博文 19
码字总数 24506
作品 0
合肥
高级程序员
Spark之获取GBT二分类函数的概率值

  在Spark中,GBT(Gradient Boost Trees,提升树)函数用于实现机器学习中的提升树算法,目前仅支持二分类算法。笔者在实际工作中需要获得其预测的概率值,无奈该函数没有相应的方法。  ...

jclian91
2017/10/09
0
0
Spark的39个机器学习库-中文

//Apache Spark 本身// 1.MLlib >AMPLab Spark最初诞生于伯克利 AMPLab实验室,如今依然还是AMPLab所致力的项目,尽管这些不处于Apache Spark Foundation中,但是依然在你日常的github项目中...

MoksMo
2015/11/04
0
0
Spark的39个机器学习库-英文

Apache Spark itself 1. MLlib AMPLab Spark originally came out of Berkeley AMPLab and even today AMPLab projects, even though they are not in Apache Spark Foundation, enjoy a sta......

MoksMo
2015/11/04
0
1
利用KNIME建立Spark Machine learning模型 2:泰坦尼克幸存预测

本文利用KNIME基于Spark决策树模型算法,通过对泰坦尼克的包含乘客及船员的特征属性的训练数据集进行训练,得出决策树幸存模型,并利用测试数据集对模型进行测试。 1、从Kaggle网站下载训练...

forestwater
05/09
0
0
Spark Core介绍以及架构

应用场景 Apache Spark 是加州大学伯克利分校的 AMP Labs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计,使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x),并且...

wsc449
01/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

Memcached启动参数详解

memcached -d -m 1024 -l 192.168.100.101 -p 11211 -P /tmp/memcached.pid -c 1024 -f 1.25 -n 80 -t 16 运行参数描述 -d:以守护(daemon)进程方式启动; -u:是运行Memcache的用户,例如 ......

月下狼
21分钟前
0
0
xgboost-kaggle

https://www.kaggle.com/dansbecker/xgboost This tutorial is part of the Learn Machine Learning series. In this step, you will learn how to build and optimize models with the powe......

tantexian
22分钟前
0
0
nginx学习八 代理服务

最常用的语法 proxy_pass Syntax: proxy_pass URL;Default: --Context:location.if in location,limit_exception 反向代理 例:/etc/nginx/conf.d/default.conf 反向代理(代理服务端)......

Romanceling
29分钟前
0
0
npm ERR! Unexpected end of JSON ...

npm install 报错: npm ERR! Unexpected end of JSON input while parsing near '..."^2.8.14"},"_hasShrin' npm ERR! A complete log of this run can be found in: ... 打开终端 命令: 第......

大_侠
33分钟前
0
0
Android中的设计模式之责任链模式

参考 《设计模式:可复用面向对象软件的基础 》5.1 Chain of responsibility 职责链 对象行为型模式 《Android源码设计模式解析与实战》第9章 使编程更有灵活性--责任链模式 意图 使多个对象...

newtrek
36分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部