文档章节

spark mllib 分类预测之逻辑回归

ericSM
 ericSM
发布于 2016/07/28 19:22
字数 685
阅读 1.2K
收藏 0

胃癌转移数据说明

肾细胞癌转移情况(有转移 y=1,无转移 y=2)
x1:确诊时患者年龄(岁)
x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等级
x3:肾细胞癌组织内微血管数(MVC)
x4:肾癌细胞核组织学分级,由低到高共4级
x5:肾细胞癌分期,由低到高共4级

y x1 x2 x3 x4 x5
0 59 2 43.4 2 1

运行代码如下

package spark.logisticRegression

import org.apache.spark.mllib.classification.LogisticRegressionWithSGD
import org.apache.spark.mllib.evaluation.MulticlassMetrics
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.{SparkConf, SparkContext}

/**
  *  MLLib分类,逻辑回归,是分类,不是回归
  *  胃癌转移判断
  * Created by eric on 16-7-17.
  */
object LogisticRegression4 {
  val conf = new SparkConf() //创建环境变量
    .setMaster("local")      //设置本地化处理
    .setAppName("LogisticRegression4")//设定名称
  val sc = new SparkContext(conf)

  def main(args: Array[String]) {
    val data = MLUtils.loadLibSVMFile(sc, "./src/main/spark/logisticRegression/wa.txt")	//读取数据文件,一定注意文本格式
    val splits = data.randomSplit(Array(0.7, 0.3), seed = 11L)	//对数据集切分
    val parsedData = splits(0)		//分割训练数据
    val parseTtest = splits(1)		//分割测试数据
    val model = LogisticRegressionWithSGD.train(parsedData,50)	//训练模型

    val predictionAndLabels = parseTtest.map {//计算测试值
      case LabeledPoint(label, features) =>	//计算测试值
        val prediction = model.predict(features)//计算测试值
        (prediction, label)			//存储测试和预测值
    }

    val metrics = new MulticlassMetrics(predictionAndLabels)//创建验证类
    val precision = metrics.precision			//计算验证值
    println("Precision = " + precision)	//打印验证值

    val patient = Vectors.dense(Array(70,3,180.0,4,3))	//计算患者可能性
    if(patient == 1) println("患者的胃癌有几率转移。")//做出判断
    else println("患者的胃癌没有几率转移。")	//做出判断
    //Precision = 0.3333333333333333
    //患者的胃癌没有几率转移。
  }
}

wa.txt

0 1:59 2:2 3:43.4 4:2 5:1
0 1:36 2:1 3:57.2 4:1 5:1
0 1:61 2:2 3:190 4:2 5:1
1 1:58 2:3 3:128 4:4 5:3
1 1:55 2:3 3:80 4:3 5:4
0 1:61 2:1 3:94 4:4 5:2
0 1:38 2:1 3:76 4:1 5:1
0 1:42 2:1 3:240 4:3 5:2
0 1:50 2:1 3:74 4:1 5:1
0 1:58 2:2 3:68.6 4:2 5:2
0 1:68 2:3 3:132.8 4:4 5:2
1 1:25 2:2 3:94.6 4:4 5:3
0 1:52 2:1 3:56 4:1 5:1
0 1:31 2:1 3:47.8 4:2 5:1
1 1:36 2:3 3:31.6 4:3 5:1
0 1:42 2:1 3:66.2 4:2 5:1
1 1:14 2:3 3:138.6 4:3 5:3
0 1:32 2:1 3:114 4:2 5:3
0 1:35 2:1 3:40.2 4:2 5:1
1 1:70 2:3 3:177.2 4:4 5:3
1 1:65 2:2 3:51.6 4:4 5:4
0 1:45 2:2 3:124 4:2 5:4
1 1:68 2:3 3:127.2 4:3 5:3
0 1:31 2:2 3:124.8 4:2 5:3

结果如图

 

 

© 著作权归作者所有

ericSM
粉丝 18
博文 142
码字总数 154379
作品 0
南京
项目经理
私信 提问
加载中

评论(1)

木易十月十日
patient是向量,是不会==1的(这里缺少model.predict步骤),另:这里的验证值precision指的是什么?
基于Spark的机器学习实践 (二) - 初识MLlib

1 MLlib概述 1.1 MLlib 介绍 ◆ 是基于Spark core的机器学习库,具有Spark的优点 ◆ 底层计算经过优化,比常规编码效率往往要高 ◆ 实现了多种机器学习算法,可以进行模型训练及预测 1.2 Spark ...

javaedge
2019/04/09
0
0
Spark的39个机器学习库-中文

//Apache Spark 本身// 1.MLlib >AMPLab Spark最初诞生于伯克利 AMPLab实验室,如今依然还是AMPLab所致力的项目,尽管这些不处于Apache Spark Foundation中,但是依然在你日常的github项目中...

MoksMo
2015/11/04
965
0
地铁译:Spark for python developers ---Spark与数据的机器学习

机器学习可以从数据中得到有用的见解. 目标是纵观Spark MLlib,采用合适的算法从数据集中生成见解。对于 Twitter的数据集, 采用非监督集群算法来区分与Apache
Spark相关的tweets . 初始输入...

abel_cao
2019/01/17
0
0
使用Spark SQL进行流式机器学习计算(上)

作者:木艮,阿里云E-MapReduce开发工程师。 今天来和大家聊一下如何使用Spark SQL进行流式数据的机器学习处理。本文主要分为以下几个章节: 什么是流式机器学习 机器学习模型获取途径 系统演...

EMR
2019/06/27
0
0
基于Spark自动扩展scikit-learn (spark-sklearn)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 https://blog.csdn.net/sunbow0/article/details/50848719 1、基于Spark自动扩展scikit-lear...

sunbow0
2016/03/10
0
0

没有更多内容

加载失败,请刷新页面

加载更多

天津哪里可以开发票

天津哪里可以开发票【電徴同步;132 * 29 30 * O5 68】李生,诚、信、合、作,保、真、售、后、保、障、长、期、有、效。adb的全称为Android Debug Bridg...

8398400
24分钟前
36
0
使用public.xml来自定义资源id,支持最新gradle 5.4.1

来源: https://blog.csdn.net/m0_37165550/article/details/102716420 总结: 了解 aapt 是Android Asset Packaging Tool的缩写,是编译和打包资源的工具。而aapt2是在aapt上做了优化 。 熟...

Gemini-Lin
27分钟前
37
0
21天完美搞定Vue框架技术(第3天)

前言: 上一节我们主要学的是【选项合并】,了解了初始化阶段各个选项的合并策略, 本节课我们来学一下【数据代理】这个知识点。 1、数据代理的定义 数据代理,也叫作数据劫持。有两个核心作...

有鱼是只猫
今天
43
0
OSChina 周二乱弹 —— 一山里不容二猫

Osc乱弹歌单(2020)请戳(这里) 【今日歌曲】 @薛定谔的兄弟 :分享洛神有语创建的歌单「我喜欢的音乐」: 《数え歌》- 池田綾子 手机党少年们想听歌,请使劲儿戳(这里) @诺墨 :哈哈哈哈...

小小编辑
今天
49
2
敏捷开发验收评审会议

迭代验收评审是Scrum中的重要活动之一,迭代验收评审会议召开过程是否符合敏捷原则,实践是否贴近实际,参照以下:要点一:参加迭代验收评审会议的角色是否完整和投入 ●敏捷团队所有...

沐沐爸比
今天
43
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部