文档章节

spark mllib 朴素贝叶斯 naive bayes

ericSM
 ericSM
发布于 2016/07/29 14:35
字数 220
阅读 356
收藏 1

数据源说明

第一列每行的标签,其他列为特征

运行代码如下

package spark.logisticRegression

import org.apache.spark.mllib.classification.NaiveBayes
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 分类 - 朴素贝叶斯简单示例
  * 后验概率 = 先验概率 x 调整因子
  * Created by eric on 16-7-18.
  */
object Bayes {
  val conf = new SparkConf()                                     //创建环境变量
    .setMaster("local")                                             //设置本地化处理
    .setAppName("Bayes")                              //设定名称
  val sc = new SparkContext(conf)

  def main(args: Array[String]) {
    val data = MLUtils.loadLabeledPoints(sc, "./src/main/spark/logisticRegression/bayes.txt")
    val model = NaiveBayes.train(data, 1.0)
    model.labels.foreach(println)//打印 label(labels是标签类别)
    model.pi.foreach(println)//打印先验概率 (pi存储各个label先验概率)
    //0.0
    //1.0
    //2.0
    //-1.0986122886681098
    //-1.0986122886681098
    //-1.0986122886681098
    val test = Vectors.dense(0, 0, 10)//新预测数据
    val result = model.predict(test)//预测结果
    println(result)//2.0
  }
}

 

bayes.txt

0,1 0 0
0,2 0 0
1,0 1 0
1,0 2 0
2,0 0 1
2,0 0 2

结果如图

© 著作权归作者所有

ericSM
粉丝 18
博文 142
码字总数 154379
作品 0
南京
项目经理
私信 提问
加载中

评论(0)

spark机器学习之常见的分类算法应用

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/on2way/article/details/85225988 今天简单记录下mllib中常见的分类算法,在分类的子文件夹下主要有三类分类算...

我i智能
2018/12/23
0
0
基于Spark的机器学习实践 (二) - 初识MLlib

1 MLlib概述 1.1 MLlib 介绍 ◆ 是基于Spark core的机器学习库,具有Spark的优点 ◆ 底层计算经过优化,比常规编码效率往往要高 ◆ 实现了多种机器学习算法,可以进行模型训练及预测 1.2 Spark ...

javaedge
2019/04/09
0
0
Spark2.1.0之模块设计

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/80386736 在阅读本文之前,读者最好已经阅读了《Spark2.1.0之初识Spark》和《Spark...

泰山不老生
2018/06/05
0
0
MLSQL如何支持部署SKLearn,Tensorflow,MLLib模型提供API预测服务

部署成API服务时,除了要把raw数据特征化成向量外,研发还要想着怎么加载模型,产生模型的框架五花八门,比如Tensorflow,SKlearn,Spark MLllib等每个框架都有自己的模型格式。在我司,有一次...

祝威廉
2018/04/27
0
0
使用Spark SQL进行流式机器学习计算(上)

作者:木艮,阿里云E-MapReduce开发工程师。 今天来和大家聊一下如何使用Spark SQL进行流式数据的机器学习处理。本文主要分为以下几个章节: 什么是流式机器学习 机器学习模型获取途径 系统演...

EMR
2019/06/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

微信-公众号自定义微信菜单二次

1.开发 <基本配置< 服务器配置 服务器地址(URL) :接收回调事件本系统接口(微信业务回调入口(用户关注,取消关注、发消息等) 令牌(Token) :wx.callback.token,本系统定义的,开发时会用到...

Shingfi
4分钟前
22
0
「网易官方」极客战记(codecombat)攻略-地牢-严酷考验 B

简介: 这一关在while-true循环内只需要4条命令。 默认代码 # 使用你刚学到的技能击败那些食人魔。 # 记住:打败食人魔矮人需要两次攻击。 概览 有了循环和变量这些利器,解决所有这些食人魔...

极客战记
4分钟前
17
0
本地DOCKER删除镜像时报错解决办法

1.报错: C:\Users\hongcq>docker rmi 6bef6f0a19bcError response from daemon: conflict: unable to delete 6bef6f0a19bc (must be forced) - image is being used by stopped container......

楚番
16分钟前
23
0
分享Linux系统快速入门法

相信看到这篇文章的你一定是想要学习Linux,或者已经在学习Linux的人了,那我们就可以一起探讨一下,学习Linux如何快速入门呢? 首先,希望大家弄清楚自己为什么要学习Linux,有的人是因为兴...

linuxprobe2020
22分钟前
35
0
压测中测量异步写入接口的延迟

在服务端性能优化的时候,有一种方案叫 “异步写入”。就是把本来要写入数据库的功能放到异步来做,跟异步查询转同步的区别在于,异步查询是要等结果的,而异步写入则可以不等返回结果,甚至...

八音弦
27分钟前
40
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部