文档章节

模型训练

KYO4321
 KYO4321
发布于 2017/09/10 22:06
字数 283
阅读 23
收藏 0

##随机森林调整参数 https://spark.apache.org/docs/2.1.0/ml-tuning.html https://stackoverflow.com/questions/32769573/how-to-cross-validate-randomforest-model K折交叉检验

##计算AUC https://weiminwang.blog/2016/06/09/pyspark-tutorial-building-a-random-forest-binary-classifier-on-unbalanced-dataset/

cross-validation与Train-Validation Split两者的区别 https://spark.apache.org/docs/2.1.0/ml-tuning.html

https://stackoverflow.com/questions/41902360/random-forest-in-spark

##批量计算各种率 https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-data-science-spark-advanced-data-exploration-modeling

Each model building code section is split into steps: + 1、Model training data with one parameter set 2、Model evaluation on a test data set with metrics 3、Saving model in blob for future consumption

保存最好的那个模型,后续加载应用

####################################################

CV USING ELASTIC NET FOR LINEAR REGRESSION

RECORD START TIME

timestart = datetime.datetime.now()

LOAD PYSPARK LIBRARIES

from pyspark.ml.regression import LinearRegression from pyspark.ml import Pipeline from pyspark.ml.evaluation import RegressionEvaluator from pyspark.ml.tuning import CrossValidator, ParamGridBuilder

DEFINE ALGORITHM/MODEL

lr = LinearRegression()

DEFINE GRID PARAMETERS

paramGrid = ParamGridBuilder().addGrid(lr.regParam, (0.01, 0.1))
.addGrid(lr.maxIter, (5, 10))
.addGrid(lr.tol, (1e-4, 1e-5))
.addGrid(lr.elasticNetParam, (0.25,0.75))
.build()

DEFINE PIPELINE

SIMPLY THE MODEL HERE, WITHOUT TRANSFORMATIONS

pipeline = Pipeline(stages=[lr])

DEFINE CV WITH PARAMETER SWEEP

cv = CrossValidator(estimator= lr, estimatorParamMaps=paramGrid, evaluator=RegressionEvaluator(), numFolds=3)

CONVERT TO DATA FRAME, AS CROSSVALIDATOR WON'T RUN ON RDDS

trainDataFrame = sqlContext.createDataFrame(oneHotTRAINreg, ["features", "label"])

TRAIN WITH CROSS-VALIDATION

cv_model = cv.fit(trainDataFrame)

EVALUATE MODEL ON TEST SET

testDataFrame = sqlContext.createDataFrame(oneHotTESTreg, ["features", "label"])

MAKE PREDICTIONS ON TEST DOCUMENTS

cvModel uses the best model found (lrModel).

predictionAndLabels = cv_model.transform(testDataFrame)

CONVERT TO DF AND SAVE REGISER DF AS TABLE

predictionAndLabels.registerTempTable("tmp_results");

PRINT ELAPSED TIME

timeend = datetime.datetime.now() timedelta = round((timeend-timestart).total_seconds(), 2) print "Time taken to execute above cell: " + str(timedelta) + " seconds";

© 著作权归作者所有

共有 人打赏支持
上一篇: spark配置
下一篇: Sphinx生成PDF
KYO4321
粉丝 3
博文 92
码字总数 48951
作品 0
深圳
程序员
私信 提问
加载中

评论(1)

KYO4321
KYO4321
https://weiminwang.blog/2016/06/09/pyspark-tutorial-building-a-random-forest-binary-classifier-on-unbalanced-dataset/
ImageNet时代将终结?何恺明新作:Rethinking ImageNet Pre-training

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/84351411 译者 | 刘畅 林椿眄 整理 | Jane 出品 | AI科技大本营 Google 最...

AI科技大本营
11/22
0
0
Kubeflow实战系列:利用TFJob导出分布式TensorFlow模型

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用导出分布式模型训练模型。 第一篇:阿里云上使用JupyterHub 第二篇:阿里云上小试TFJob 第三篇:利用TFJob运行分布式...

必嘫
06/23
0
0
【AI实战】训练第一个AI模型:MNIST手写数字识别模型

在上篇文章中,我们已经把AI的基础环境搭建好了(见文章:Ubuntu + conda + tensorflow + GPU + pycharm搭建AI基础环境),接下来将基于tensorflow训练第一个AI模型:MNIST手写数字识别模型。...

雪饼
08/11
0
0
入门 | 简述迁移学习在深度学习中的应用

本文介绍了迁移学习的基本概念,以及该方法在深度学习中的应用,引导构建预测模型的时候使用迁移学习的基本策略。 迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使...

机器之心
01/05
0
0
Caffe神经网络结构汇总

文章作者:Tyan 博客:noahsnail.com | CSDN | 简书 自2012年Alexnet赢得了ImageNet竞赛以来,深度学习(神经网络)得到了飞速发展,产生了许多的神经网络结构,本文主要总结Caffe中使用的神...

Quincuntial
2017/06/01
0
0

没有更多内容

加载失败,请刷新页面

加载更多

RestClientUtil和ConfigRestClientUtil区别说明

RestClientUtil directly executes the DSL defined in the code. ConfigRestClientUtil gets the DSL defined in the configuration file by the DSL name and executes it. RestClientUtil......

bboss
今天
12
0

中国龙-扬科
昨天
2
0
Linux系统设置全局的默认网络代理

更改全局配置文件/etc/profile all_proxy="all_proxy=socks://rahowviahva.ml:80/"ftp_proxy="ftp_proxy=http://rahowviahva.ml:80/"http_proxy="http_proxy=http://rahowviahva.ml:80/"......

临江仙卜算子
昨天
9
0
java框架学习日志-6(bean作用域和自动装配)

本章补充bean的作用域和自动装配 bean作用域 之前提到可以用scope来设置单例模式 <bean id="type" class="cn.dota2.tpye.Type" scope="singleton"></bean> 除此之外还有几种用法 singleton:......

白话
昨天
8
0
在PC上测试移动端网站和模拟手机浏览器的5大方法

总结很全面,保存下来以备不时之需。原文地址:https://www.cnblogs.com/coolfeng/p/4708942.html

kitty1116
昨天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部