文档章节

Model selection and tuning 模型选择与调优

hblt-j
 hblt-j
发布于 2017/08/29 16:50
字数 707
阅读 28
收藏 0

Model selection模型选择

  ML中的一个重要任务是模型选择,或使用数据为给定任务找到最佳的模型或参数。 这也称为调优。 可以对诸如Logistic回归的单独Estimators进行调整,或者对包括多个算法,特征和其他步骤的整个Pipeline进行调整。 用户可以一次调整整个Pipeline,而不必单独调整Pipeline中的每个元素。

MLlib支持使用CrossValidator和TrainValidationSplit等工具进行模型选择。这些工具需要以下items:
    Estimator:要调整的algorithm or Pipeline
    Set of ParamMaps:可以选择的参数,有时称为“parameter grid”
    Evaluator:衡量拟合模型对测试数据支持的有多好

在高级别,这些模型选择工具的工作如下:

    将输入数据分成单独的训练和测试数据集。
    对于每个(训练,测试)对,遍历ParamMap的集合:
        对于每个ParamMap,它们使用这些参数拟合Estimator,获得拟合的Model,并使用Evaluator评估Model的性能。
    选择由性能最佳的参数集合生成的模型。

  Evaluator可以是用于回归问题的RegressionEvaluator,用于二进制数据的BinaryClassificationEvaluator,用于多类问题的MulticlassClassificationEvaluator。每个evaluator中的“setMetricName方法”是一个用于选择最佳ParamMap的默认度量。

为了帮助构造parameter grid,用户可以使用ParamGridBuilder实用程序。

 

Cross-Validation交叉验证
  CrossValidator开始于将数据集分割为一组folds,用作单独的训练和测试数据集。 例如,k = 3 folds,CrossValidator将生成3个“数据集对(训练,测试)”,其中每个数据集使用2/3的数据进行训练和1/3的测试。 为了评估特定的ParamMap,通过在3个不同“数据集对”上拟合Estimator,CrossValidator为3个Models计算平均评估度量。

  在识别最好的ParamMap后,CrossValidator最终使用最好的ParamMap和整个数据集重新匹配Estimator。

  注意,在parameters grid上的CrossValidator是非常耗费资源。 然而,它也是用于选择参数的好的公认的方法,比启发式手动调优在统计上更好。

 

Train-Validation Split

  除了CrossValidator,Spark还提供TrainValidationSplit用于超参数调优。 TrainValidationSplit只评估“每个参数的组合”一次,而不是在CrossValidator的情况下k次。 因此,TrainValidationSplit耗费的资源比CrossValidator少一些,但是当训练数据集不够大时,不会产生可靠的结果。

  与CrossValidator不同,TrainValidationSplit创建一个“数据集对(训练,测试)”。 它使用trainRatio参数将数据集拆分为这两个部分。 例如,trainRatio = 0.75

,TrainValidationSplit将生成训练和测试数据集对,其中75%的数据用于训练,25%用于验证。

  像CrossValidator,TrainValidationSplit最终使用最好的ParamMap和整个dataset拟合Estimator。

本文转载自:http://www.cnblogs.com/wwxbi/p/6210199.html

共有 人打赏支持
hblt-j
粉丝 20
博文 162
码字总数 67057
作品 0
海淀
架构师
私信 提问
SparkML模型选择(超参数调整)与调优

Spark ML模型选择与调优 本文主要讲解如何使用Spark MLlib的工具去调优ML算法和Pipelines。内置的交叉验证和其他工具允许用户优化算法和管道中的超参数。 模型选择(又称为超参数调整) ML中...

rlnlo2pnefx9c
2017/12/10
0
0
【博客存档】机器学习模型评估

前言 当数据好了之后,你所需的只是调下开源包,然后一个模型就出来了,但是,好与不好?谁来界定? 这篇文章,主要针对模型的评估,系统介绍下各种不同的模型的各种评测标准,主要参考Alice...

想飞的石头
2017/11/03
0
0
如何用 SQL Tuning Advisor (STA) 优化SQL语句

在oracle10g之前,想要优化一个sql语句是比较麻烦,但是在oracle10g这个版本推出的SQL Tuning Advisor这个工具,能大大减少sql调优的工作量,不过要想使用SQL Tuning Advisor,一定要保证你的...

markGao
2014/03/05
0
0
DBM_SQLTUNE使用简介

DBMS_SQLTUNE的使用方法 所需权限 grant advisor to user; grant selectcatalogrole to user; --通过OEM管理必不可少 grant execute on dbms_sqltune to user; 获取绑定变量的方法 此时分两种...

dbstats
2017/04/24
0
0
菜鸟学Linux 第111篇笔记 Memory

菜鸟学Linux 第111篇笔记 Memory 建议查看原文(因为复制版的格式可能有问题) 原文出自 Winthcloud 链接: 内容总览 内存子系统组件 Memory提升 Viewing system calls Strategies for usin...

Winthcloud
2017/05/31
0
0

没有更多内容

加载失败,请刷新页面

加载更多

java框架学习日志-7(静态代理和JDK代理)

静态代理 我们平时去餐厅吃饭,不是直接告诉厨师做什么菜的,而是先告诉服务员点什么菜,然后由服务员传到给厨师,相当于服务员是厨师的代理,我们通过代理让厨师炒菜,这就是代理模式。代理...

白话
今天
22
0
Flink Window

1.Flink窗口 Window Assigner分配器。 窗口可以是时间驱动的(Time Window,例如:每30秒钟),也可以是数据驱动的(Count Window,例如:每一百个元素)。 一种经典的窗口分类可以分成: 翻...

满小茂
今天
17
0
my.ini

1

architect刘源源
今天
15
0
docker dns

There is a opensource application that solves this issue, it's called DNS Proxy Server It's a DNS server that solves containers hostnames, if could not found a hostname that mat......

kut
今天
15
0
寻找数学的广度——《这才是数学》读书笔记2700字

寻找数学的广度——《这才是数学》读书笔记2700字: 文|程哲。数学学习方式之广:国内外数学教育方面的专家,进行了很多种不同的数学学习方式尝试,如数学绘本、数学游戏、数学实验、数学步道...

原创小博客
今天
27
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部