文档章节

用随机森林分类算法进行Iris 数据分类训练,是怎样的体验?

openfea
 openfea
发布于 2017/08/10 11:18
字数 1146
阅读 467
收藏 8

MLlib是Spark的机器学习(ML)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。

MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。

MLllib目前分为两个代码包:spark.mllib 包含基于RDD的原始算法API。

spark.ml ,提供了基于DataFrames高层次的API,可以用来构建机器学习管道,FEA-spk技术的机器学习就是基于spark.ml 包。

spark.ml 包,是基于DataFrame的,未来将成为Spark机器学习的主要API。它可以在分布式集群上进行大规模的机器学习模型训练,并且可以对数据进行可视化。

一、随机森林分类算法的介绍

随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入时,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对应分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

使用Spark MLlib随机森林算法存在不足,需要改进!

具体来讲,使用Spark MLlib进行模型的训练,需要进行大量的数据转化,列聚合为向量等。非常麻烦,并且不能做数据的可视化。

而FEA-spk技术可以很好的解决这些问题。对模型进行训练只需要一句命令就行了,并且可以对结果数据进行可视化展示。

二、Iris 数据分类训练案例

下面列举一个用随机森林分类算法进行Iris 数据分类的例子。

1. 数据准备

原始的数据以及相应的说明可以到https://pan.baidu.com/s/1c2d0hpA下载。 我在这基础之上,增加了header信息。 

这里将下载好的数据放到hdfs上面进行读取。

2. Iris 数据进行训练的具体步骤

(1)要使用FEA-spk技术,首先要创建一个spk的连接,所有的操作都是以它为上下文进行的。在fea界面运行以下命令

(2)加载数据,数据在hdfs上面,数据的格式为csv文件格式,目录为/data/iris_data.txt

(3)使用ML_si方法将字符型的label变成index       

(4)将特征列的类型转化为double类型,因为spark.ml只支持double类型,使用 ML_double方法

(5)使用随机森林模型进行训练

在训练RandomForest模型的时候,我们需要设置好几个参数:

· maxBins

最大装箱数,为了近似统计变量,比如变量有100个值,我只分成10段去做统计,默认值是32;

· numTrees

森林里有几棵树,默认值是20;

· minInstancesPerNode

每个节点最少实例,默认值是1;

· minInfoGain

最小信息增益,默认值是0.0;

· maxDepth

最大树深度,默认值是5;

· maxMemoryInMB

最大内存MB单位,这个值越大,一次处理的节点划分就越多,默认值是256;

· cacheNodeIds

是否缓存节点id,缓存可以加速深层树的训练,默认值是False;

· checkpointInterval

检查点间隔,就是多少次迭代固化一次,默认值是10;

· impurity

随机森林有三种方式,entropy,gini,variance,回归肯定就是variance,默认值是gini;

· seed

采样种子,种子不变,采样结果不变,默认值None;

· featureSubsetStrategy

auto: 默认参数。让算法自己决定,每颗树使用几条数据。

使用的参数如下图所示

(6)对训练好的模型进行打分

可以看到准确率达到了97%

(7)将训练好的模型保存到hdfs上面,以供下次使用

这个非常实用,对于模型比较大的情况下,利用HDFS的分布式结构就可以提高加载性能。

(8)将hdfs上面保存的模型加载进来

(9)对加载后的模型做预测

其中prediction列就是预测的结果

以上就是使用FEA-spk技术进行机器学习的步骤,它非常适合数据分析处理大规模的数据,简单、强大、可视化,不懂Java\Python同样可以玩转Spark!

© 著作权归作者所有

共有 人打赏支持
openfea
粉丝 14
博文 86
码字总数 95615
作品 1
杭州
其他
私信 提问
加载中

评论(3)

我还在等你回家
作者我想转发一下你这篇文章,留你的原文地址,可以嘛
openfea
openfea

引用来自“OSC首席键客”的评论

这标题是知乎体。。。看着不是很舒服。

回复@OSC首席键客 : 知乎受众都比较文青,所以才吸引人
OSC首席键客
OSC首席键客
这标题是知乎体。。。看着不是很舒服。
机器学习|决策树分类与python实现

目录: 1.决策树简介 2.决策树生成 a) 选择标准——熵 b) 信息增益——ID3算法 c) 信息增益率——C4.5算法 d) Gini系数——CART算法 e) 评价标准——评价函数 3.剪枝操作 a) 预剪枝 b) 后剪枝...

最会设计的科研狗
2017/06/14
0
0
在Python 3中使用深度森林(Deep Forest)进行分类

深度森林(Deep Forest)是周志华教授和冯霁博士在2017年2月28日发表的论文《Deep Forest: Towards An Alternative to Deep Neural Networks》中提出来的一种新的可以与深度神经网络相媲美的基...

洛荷
2017/10/02
0
0
kNN(K-Nearest Neighbor)最邻近规则分类

KNN最邻近规则,主要应用领域是对未知事物的识别,即判断未知事物属于哪一类,判断思想是,基于欧几里得定理,判断未知事物的特征和哪一类已知事物的的特征最接近; K最近邻(k-Nearest Neig...

最帅的刘先生
2016/12/23
32
0
决策树和随机森林学习笔记-欢迎补充

编者:以下资料来源于网络高质量博客,编者只是摘录精华再加上自己的理解进行补充。 决策树-基础概念 信息熵(熵、联合熵、条件熵、互信息) 「熵」是什么? 怎样以简单易懂的方式向其他人解...

陈司空
2017/04/14
0
0
【Machine Learning】KNN算法虹膜图片识别

K-近邻算法虹膜图片识别实战 作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷。然而多数是基础理论知识介绍,缺乏实现的深入理解。本系列文章是作...

伏草惟存
2017/01/03
0
0

没有更多内容

加载失败,请刷新页面

加载更多

如何在 Linux 系统查询机器最近重启时间

在你的 Linux 或类 UNIX 系统中,你是如何查询系统上次重新启动的日期和时间?怎样显示系统关机的日期和时间? last 命令不仅可以按照时间从近到远的顺序列出该会话的特定用户、终端和主机名...

来来来来来
今天
2
0
Redis协议是什么样的

前言 我们用过很多redis的客户端,有没有相过自己撸一个redis客户端? 其实很简单,基于socket,监听6379端口,解析数据就可以了。 redis协议 解析数据的过程主要依赖于redis的协议了。 我们...

春哥大魔王的博客
今天
3
0
乱入Linux界的我是如何学习的

欢迎来到建哥学Linux,咳!咳!咳!开个玩笑哈,我是一个IT男,IT界的入门选手,正在学习Linux。 在之前,一直想进军IT界,学习IT技术,但是苦于没有人指导,也不知道学什么,最开始我自己在...

linuxCool
今天
3
0
携程Apollo统一配置中心的搭建和使用(java)

一.Apollo配置中心介绍 1、What is Apollo 1.1 Apollo简介 Apollo(阿波罗)是携程框架部门研发的开源配置管理中心,能够集中化管理应用不同环境、不同集群的配置,配置修改后能够实时推送到...

morpheusWB
今天
3
0
远程获得的有趣的linux命令

使用这些工具从远程了解天气、阅读资料等。 我们即将结束为期 24 天的 Linux 命令行玩具日历。希望你有一直在看,如果没有,请回到开始,从头看过来。你会发现 Linux 终端有很多游戏、消遣和...

Linux就该这么学
今天
6
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部