文档章节

使用jpmml-sparkml-executable生成PMML模型文件

KYO4321
 KYO4321
发布于 11/20 18:36
字数 119
阅读 23
收藏 0
加载依赖的jar包
通过./spark-shell  --jars ./jpmml-sparkml-executable-1.2.13.jar 启动spark
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.PipelineStage
import org.apache.spark.ml.feature.RFormula
import org.jpmml.sparkml.PMMLBuilder
import java.io.File

val df = (spark.read.format("csv")
  .option("sep", ",")
  .option("inferSchema", "true")
  .option("header", "true")
  .load("/user/spark/security/Wholesale_customers_data.csv"))
  
  
val formula = new RFormula().setFormula("target ~ .")
val lr = new LogisticRegression()

val pipeline = new Pipeline().setStages(Array(formula,lr))
  
val schema = df.schema

val pipelineModel = pipeline.fit(df)
val pmml = new PMMLBuilder(schema, pipelineModel)

val file = pmml.buildFile(new File("/data/data2/tmp/logit_pipeline.pmml"))

© 著作权归作者所有

共有 人打赏支持
KYO4321
粉丝 3
博文 92
码字总数 48951
作品 0
深圳
程序员
私信 提问
加载中

评论(1)

KYO4321
KYO4321
####参考链接
http://shiyanjun.cn/archives/1693.html
https://community.hortonworks.com/articles/208569/build-and-convert-a-spark-nlp-pipeline-into-pmml-i.html
Spark之导出PMML文件(Python)

PMML,全称预言模型标记语言(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型,是一个已经被W3C所接受的标准。PMML是一种基于XML的语言,用来定义预言模型。详细的介绍...

jclian91
2017/12/04
0
0
PMML 标准介绍及其在数据挖掘任务中的应用

简介: Predictive Model Markup Language(PMML) 是一种平台无关的统计和数据挖掘模型表示标准。通过定义规范化的数据挖掘建模过程以及统一的模型表达,PMML 使得模型构造和基于模型的预测功...

IBMdW
2011/07/26
1K
3
数据挖掘模型标识语言--PMML

预测模型标记语言(Predictive Model Markup Language,PMML)是一种可以呈现预测分析模型的事实标准语言。它支持在 PMML 兼容应用程序之间轻松共享预测解决方案。借助预测分析,石油和化工业...

匿名
2009/01/10
3K
0
机器如何学习,如何利用大数据构建机器学习平台?

  机器如何学习?   人脑具备不断积累经验的能力,依赖经验我们便具备了分析处理的能力,比如我们要去菜场挑一个西瓜,别人或者自己的经验告诉我们色泽青绿、根蒂蜷缩、纹路清晰、敲声浑...

大数据头条
2017/12/27
0
0
利用已有的大数据技术,如何构建机器学习平台

机器如何学习? 人脑具备不断积累经验的能力,依赖经验我们便具备了 分析处理的能力,比如我们要去菜场挑一个西瓜,别人或者自己的经验告诉我们色泽青绿、根蒂蜷缩、纹路清晰、敲声浑响的西瓜...

雨中沙漠
2017/11/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Impala和Hive集成Sentry、Kerberos认证

关于 Kerberos 的安装和 HDFS 配置 kerberos 认证,请参考 HDFS配置kerberos认证。 关于 Kerberos 的安装和 YARN 配置 kerberos 认证,请参考 YARN配置kerberos认证。 关于 Kerberos 的安装和...

hblt-j
16分钟前
0
0
Ubuntu 18.04 PostgreSQL 11 apt 默认安装某些问题解析

首先默认安装软件(本文以PostgreSQL 11.1为例,其他版本类似)。 sudo apt install postgresql-11 等待软件自动安装并完成配置,启动服务。 服务状态如下: vmware@vmware-virtual-machine:...

白豆腐徐长卿
29分钟前
1
0
一步步动手实现高并发的Reactor模型 —— Kafka底层如何充分利用多线程优势去处理网络I/O与业务分发

一、从《Apeche Kafka源码剖析》上搬来的概念和图 Kafka网络采用的是Reactor模式,是一种基于事件驱动的模式。熟悉Java编程的读者应该了解Java NIO提供了Reactor模式的API。常见的单线程Jav...

Anur
32分钟前
1
0
数字信号处理各种处理及图象

https://wenku.baidu.com/view/b1bb67f1f90f76c661371a75.html?sxts=1544696459935

whoisliang
36分钟前
1
0
rabbitmq学习

使用docker安装rabbit docker run -d --hostname my-rabbit --name rabbit -p 8080:15672 rabbitmq:management--hostname:指定容器主机名称--name:指定容器名称-p:将mq端口号映射到本地...

元谷
51分钟前
1
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部