文档章节

PyTorch支持Kubernetes集群

openthings
 openthings
发布于 2018/05/24 10:46
字数 455
阅读 596
收藏 0

PyTorch 支持Kubernetes集群

Pytorchs是另外一个开源的深度学习软件包,Pytorch可以在Kubernetes之中运行。该POC基于 TFJob operator,目前还处于概念验证阶段。

参考:

pytorch-operator 项目支持pytorch。该代码库还是体验阶段,用于启动该 proposal 的支持。

环境要求

目前,PyTorch是通过Helm的支持安装的,这与Kubeflow采用的ksonnet是不一致的,不过以后helm和Ksonnet将会合并,从而最终架构将走向统一。

使用 PyTorch Operator

运行下面的指令,部署 operator 到当前上下文的命名空间(或通过--namespace=kubeflow指定):

RBAC=true #set false if you do not have an RBAC cluster
helm install pytorch-operator-chart -n pytorch-operator --set rbac.install=${RBAC} --wait --replace

对 POC 例程,我们使用包含分布式训练脚本的 configmap 来进行:

kubectl create -f examples/mnist/configmap.yaml

创建 PyTorchJob 资源来启动训练过程:

kubectl create -f examples/mnist/pytorchjob.yaml

现在,你应该已经可以看到任务(job)按照指定的复制数(replicas)运行起来。

kubectl get pods -a -l pytorch_job_name=example-job

训练任务将运行大约 10 epochs,耗时 5-10 分钟(CPU集群)。在运行时可以查看日志。通过下面的方法可以看到日志的输出,了解训练的运行状态:

PODNAME=$(kubectl  get pods -a -l pytorch_job_name=example-job,task_index=0 -o name)
kubectl logs -f ${PODNAME}

例程的输出:

Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
Processing...
Done!
Rank  0 , epoch  0 :  1.2753884393269066
Rank  0 , epoch  1 :  0.5752273188915842
Rank  0 , epoch  2 :  0.4370715184919616
Rank  0 , epoch  3 :  0.37090928852558136
Rank  0 , epoch  4 :  0.3224359404430715
Rank  0 , epoch  5 :  0.29541213348158385
Rank  0 , epoch  6 :  0.27593734307583967
Rank  0 , epoch  7 :  0.25898529327055536
Rank  0 , epoch  8 :  0.24815570648862864
Rank  0 , epoch  9 :  0.22647559368756534

© 著作权归作者所有

openthings
粉丝 320
博文 1129
码字总数 675031
作品 1
东城
架构师
私信 提问
Cloud Native Weekly | KubeCon首登中国,华为云亮相KubeCon 2018,微软云服务又罢工

1、KubeCon首登中国,Kubernetes将如何再演进? 11月14日,由CNCF发起的云原生领域全球最大的峰会之一KubeCon+CloudNativeCon首次登陆中国,中国已经成为云原生领域一股强大力量,并且还在不...

云容器大师
2018/11/26
0
0
k8s - 机器学习 - 问题锦集

▶ Pytorch 共享内存不足的问题 问题描述 k8s 中运行 Pytorch 程序,出现以下错误 问题分析 PyTorch 官方文档:Please note that PyTorch uses shared memory to share data between process...

Anoyi
08/07
0
0
pytorch-operator on Kubernetes

pytorch-operator Experimental repo notice: This repository is experimental and currently only serves as a proof of concept for running distributed training with PyTorch on Kuber......

openthings
2018/05/12
136
0
重磅!Facebook 公布 PyTorch 1.0 预览版!

作者 | 琥珀 出品 | AI科技大本营(公众号ID:rgznai100) 近日,Facebook 宣布发布深度学习框架 PyTorch 1.0 开发者预览版,包括一些列工具和集成,使其与 Google Cloud、AWS、Azure 的机器...

CSDN资讯
2018/10/04
0
0
重磅!Facebook公布PyTorch 1.0预览版!

作者 | 琥珀 出品 | AI科技大本营(公众号ID:rgznai100) 今日,Facebook 宣布发布深度学习框架 PyTorch 1.0 开发者预览版,包括一些列工具和集成,使其与 Google Cloud、AWS、Azure 的机器...

AI科技大本营
2018/10/03
0
0

没有更多内容

加载失败,请刷新页面

加载更多

Taro 兼容 h5 踩坑指南

最近一周在做 Taro 适配 h5 端,过程中改改补补,好不酸爽。 本文记录📝遇到的问题,希望为有相同需求的哥们👬节约点时间。 Taro 版本:1.3.9。 解决跨域问题 h5 发请求会报跨域问题,需...

dkvirus
今天
4
0
Spring boot 静态资源访问

0. 两个配置 spring.mvc.static-path-patternspring.resources.static-locations 1. application中需要先行的两个配置项 1.1 spring.mvc.static-path-pattern 这个配置项是告诉springboo......

moon888
今天
3
0
hash slot(虚拟桶)

在分布式集群中,如何保证相同请求落到相同的机器上,并且后面的集群机器可以尽可能的均分请求,并且当扩容或down机的情况下能对原有集群影响最小。 round robin算法:是把数据mod后直接映射...

李朝强
今天
4
0
Kafka 原理和实战

本文首发于 vivo互联网技术 微信公众号 https://mp.weixin.qq.com/s/bV8AhqAjQp4a_iXRfobkCQ 作者简介:郑志彬,毕业于华南理工大学计算机科学与技术(双语班)。先后从事过电子商务、开放平...

vivo互联网技术
今天
19
0
java数据类型

基本类型: 整型:Byte,short,int,long 浮点型:float,double 字符型:char 布尔型:boolean 引用类型: 类类型: 接口类型: 数组类型: Byte 1字节 八位 -128 -------- 127 short 2字节...

audience_1
今天
9
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部