文档章节

Spark机器学习工具链-MLflow简介

openthings
 openthings
发布于 2018/06/07 07:40
字数 635
阅读 867
收藏 1

Spark机器学习工具链-MLflow简介

参考:

MLflow 文档与教程

MLflow 是一个开源的平台,用于管理端到端的机器学习生命周期。主要跟踪三个主要功能:

  • 跟踪试验用于记录、比较参数和结果 (MLflow Tracking)。
  • 打包 ML 代码为可重用、可重复生产的形式,以与其他数据科学家分享,或者转入生产阶段 (MLflow Projects)。
  • 从不同的ML库中管理和部署models,到不同的model serving 和推理平台(MLflow Models)。

MLflow是library无关的。你可以使用任何机器学习库,使用任何编程语言,因为所有的功能访问都通过 REST API 和 CLI,为了方便应用,项目包含了 Python API

通过 Quickstart 来开始MLflow的应用,或先来了解一下关键概念( key concepts)。

快速开始-MLflow Alpha版本

⚠️注意

目前的MLflow版本是alpha阶段,意味着 APIs 和存储格式都有可能随时改变!

安装

安装 MLflow,使用 PyPi 通过 pip install mlflow,macOS请使用python3和pip3。

MLflow 要求 conda 在 PATH 中,以实现项目的特色功能。

MLflow 官方文档在 https://mlflow.org/docs/latest/index.html

运行Sample App试验Tracking API

在 example 程序使用 MLflow Tracking API. 例如,运行:

python example/quickstart/test.py

该程序将使用 MLflow log API, 存储tracking数据在 ./mlruns, 然后可以使用Tracking UI来浏览。

启动 Tracking UI

MLflow Tracking UI 将显示 ./mlruns 中的运行记录,在 http://localhost:5000. 启动:

mlflow ui

运行 Project,来自 URI

命令 mlflow run 让你运行一个 project,被使用 MLproject文件封装,从本地文件或者 Git URI:

mlflow run example/tutorial -P alpha=0.4

mlflow run git@github.com:databricks/mlflow-example.git -P alpha=0.4

查看 example/tutorial ,了解sample project 中的MLproject file。

保存和服务 Models

为了演示管理的 models, 包 mlflow.sklearn 记录Scikit-learn models 作为 MLflow artifacts,然后载入用于serving。这里的示范 training application 在 example/quickstart/test_sklearn.py ,运行如下:

$ python example/quickstart/test_sklearn.py
Score: 0.666
Model saved in run <run-id>

$ mlflow sklearn serve -r <run-id> model

$ curl -d '[{"x": 1}, {"x": -1}]' -H 'Content-Type: application/json' -X POST localhost:5000/invocations

贡献

欢迎任何贡献,请查看 contribution guide 了解细节。

© 著作权归作者所有

openthings
粉丝 325
博文 1140
码字总数 689435
作品 1
东城
架构师
私信 提问
加载中

评论(1)

Samael2017
Samael2017
Spark2.x机器学习实战(算法篇:基于Kaggle竞赛数据集,六大算法模型构建)
课程学习址:http://www.xuetuwuyou.com/course/311
课程出自学途无忧网:http://www.xuetuwuyou.com

本课程讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵盖推荐系统、回归、聚类、分类等经典机器学习算法及其实际应用,涵盖使用Spark ML Pipeline API创建和调试机器学习流程,内容更加系统、全面、与时俱进,适合所有欲借助Spark来实现常见机器学习应用的开发者。

本课程主要讲解基于Spark 2.x的机器学习库,MLlib实现了常用的机器学习,如:聚类、分类、回归等6大算法,使用Kaggle竞赛数据集模型构建。

本课拒绝枯燥的讲述,将循序渐进从Spark2.x的基础知识开始,然后再透彻讲解各个算法的理论、详细展示Spark实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习。

通过该课程的学习同学们可以全面掌握Spark MLlib机器学习,进而能够在实际工作中进行ML的应用开发和定制开发。
AirFlow/NiFi/MLFlow/KubeFlow进展

大数据分析中,进行流程化的批处理是必不可少的。传统的大数据处理大部分是基于关系数据库系统,难以实现大规模扩展;主流的基于Hadoop/Spark体系总体性能较强,但使用复杂、扩展能力弱。大数...

openthings
06/21
440
0
钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

直播主题: 【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】 时间: 6月19日 19:30-20:30 分享嘉宾: 江宇,阿里云EMR技术专家。从事Hadoop内核开发...

EMR
06/17
0
0
机器学习管理平台 MLFlow

最近工作很忙,博客一直都没有更新。抽时间给大家介绍一下Databrick开源的机器学习管理平台-MLFlow。 谈起Databrick,相信即使是不熟悉机器学习和大数据的工程湿们也都有所了解,它由Spark的...

naughty
2018/07/21
2.8K
1
【短文】Spark危机与机遇杂谈

MLFlow 昨天发了一篇文章Spark团队新作MLFlow 解决了什么问题 描述了我对MLFlow的一些看法,现在想来,Spark团队是非常聪明的,AI同学都有自己的社区,自己的生态,Spark则是在工程研发群体具...

祝威廉
2018/06/07
0
0
Spark机器学习工具链-MLflow使用教程

Spark机器学习工具链-MLflow使用教程 本文翻译自 https://www.mlflow.org/docs/latest/concepts.html 本文地址 https://my.oschina.net/u/2306127/blog/1825690,by openthings, 2018.06.07......

openthings
2018/06/07
2.2K
0

没有更多内容

加载失败,请刷新页面

加载更多

3_数组

3_数组

行者终成事
今天
7
0
经典系统设计面试题解析:如何设计TinyURL(二)

原文链接:https://www.educative.io/courses/grokking-the-system-design-interview/m2ygV4E81AR 编者注:本文以一道经典的系统设计面试题:《如何设计TinyURL》的参考答案和解析为例,帮助...

APEMESH
今天
7
0
使用logstash同步MySQL数据到ES

概述   在生成业务常有将MySQL数据同步到ES的需求,如果需要很高的定制化,往往需要开发同步程序用于处理数据。但没有特殊业务需求,官方提供的logstash就很有优势了。   在使用logstas...

zxiaofan666
今天
10
0
X-MSG-IM-分布式信令跟踪能力

经过一周多的鏖战, X-MSG-IM的分布式信令跟踪能力已基本具备, 特点是: 实时. 只有要RX/TX就会实时产生信令跟踪事件, 先入kafka, 再入influxdb待查. 同时提供实时sub/pub接口. 完备. 可以完整...

dev5
今天
7
0
OpenJDK之CyclicBarrier

OpenJDK8,本人看的是openJDK。以前就看过,只是经常忘记,所以记录下 图1 CyclicBarrier是Doug Lea在JDK1.5中引入的,作用就不详细描述了,主要有如下俩个方法使用: await()方法,如果当前线...

克虏伯
今天
8
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部