文档章节

使用TensorFlow和Kubernetes进行基于GPU的深度学习

openthings
 openthings
发布于 2018/01/14 15:22
字数 604
阅读 313
收藏 3

Daniel Whitenack在最近举行的北美2017 KubeCon+CloudNativeCon大会上分享了如何使用TensorFlow和Kubernetes进行基于GPU的深度学习。

他以物体检测为例子介绍了一种典型的人工智能工作流程。该工作流程包括预处理、模型训练、模型生成和模型推理。这些步骤都可以运行在Docker容器里。

模型训练一般是通过框架来完成的,如TensorFlow或Caffe。在这一阶段,GPU可用于帮助提升性能。深度学习在使用TensorFlow或其他框架时,需要借助GPU在图像数据上训练模型。

模型训练可以运行在Kubernetes集群的GPU节点上。Kubernetes为多GPU节点提供了一个非常好的框架,按照如下步骤可实现更好的工作流:

  • 将数据正确地分配代码(pod)。
  • 在正确的节点上处理数据。
  • 在正确的时间触发正确的代码。

该工作流程也可以用于跟踪哪个版本的代码和数据产生了哪些结果(用于调试、维护和合规的目的)。

Kubernetes为此提供了基础支持,也因为它具备了可移植性和可伸缩性,所以非常适用于机器学习项目。

Whitenack介绍了一个叫作Pachyderm的开源项目,它支持数据管道,并为Kubernetes提供了数据管理层。工作流中一般会包含多个数据预处理和后处理作业。Pachyderm提供了统一的框架用于调度多步骤工作流、数据管理和向GPU分配工作负载。

Pachyderm框架的特性包括:

  • 数据版本:版本化的数据可存储在Amazon S3数据库里。
  • 用于分析的容器。
  • 分布式管道或数据处理DAG。
  • 数据监管:可用于合规和调试。

Whitenack在现场进行了演示,使用Pachyderm和Kubernetes实现了一个AI工作流。示例应用程序实现了图像到图像的转换,将卫星图自动转成地图。他在例子中使用TensorFlow进行模型训练和推理。

如果读者对Pachyderm框架感兴趣,可以参考机器学习示例开发者文档Kubernetes GPU文档,或者直接加入Slack通道

查看英文原文Building GPU Accelerated Workflows with TensorFlow and Kubernetes

© 著作权归作者所有

openthings
粉丝 324
博文 1140
码字总数 689435
作品 1
东城
架构师
私信 提问
加载中

评论(1)

小-夜-曲
小-夜-曲
mark
Kubernetes Meetup 中国2017 北京站

Caicloud 携手美国 CNCF 基金会主办中国地区 Kubernetes Meetup 源于 2016 年 4 月。去年,Caicloud 团队携手来自 eBay、腾讯、VMware、中国移动、浙大 SEL 实验室的架构师在北、上、杭、深四...

Caicloud
2017/03/15
41
0
Kubernetes Meetup 中国2017 北京站

Caicloud 携手美国 CNCF 基金会主办中国地区 Kubernetes Meetup 源于 2016 年 4 月。去年,Caicloud 团队携手来自 eBay、腾讯、VMware、中国移动、浙大 SEL 实验室的架构师在北、上、杭、深四...

Caicloud
2017/03/15
14
0
ElasticDL:蚂蚁金服开源基于 TensorFlow 的弹性分布式深度学习系统

9 月 11 日,蚂蚁金服在2019谷歌开发者大会上海站上开源了 ElasticDL 项目,这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。 开源地址为:https://github.com/sql-machine-learni...

SOFAStack
09/16
66
0
ElasticDL:首个基于 TensorFlow 实现弹性深度学习的开源系统

9 月 11 日,蚂蚁金服开源了 ElasticDL 项目,据悉这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。 Google Brain 成员 Martin Wicke 此前在公开邮件中透露了 TensorFlow 2.0 的规...

h4cd
09/11
15K
10
ElasticDL: Kubernetes-native 弹性分布式深度学习系统

9月11日,蚂蚁金服在 Google Developer Day Shanghai 2019 上宣布开源了基于 TensorFlow 2.0 eager execution 的分布式深度学习系统 ElasticDL。基于 TensorFlow 的支持弹性调度的深度学习系...

阿里云官方博客
09/16
126
0

没有更多内容

加载失败,请刷新页面

加载更多

灰度控制,比较两个版本

/** * 比较version1和version2的版本大小 * @param version1 * @param version2 * @param splitStr * @return * 返回version1-比较结果-version2 */public static CompareRe...

春哥大魔王的博客
22分钟前
4
0
Jsoup analysis THML

Jsoup是一款HTML解析器,通过它可以解析获取到URL、HTML等中的某些内容, 它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 依赖: org.jsoup jsou...

东方神祇
23分钟前
4
0
Spring Boot 2 实战:根据条件来自动配置不同逻辑的Bean

1. 前言 我们经常会有根据条件来加载不同的接口。比如你查询目录下文件列表, Windows 下你会用 CMD 的 dir 命令,而 Linux 下你会使用 ls 命令。 熟悉 Spring Boot 自动配置的也知道 Spring...

码农小胖哥
26分钟前
4
0
PCB设计-Allegro软件入门系列-焊盘的构成和用途(1)

Allegro软件入门最难的就是焊盘制作,而一个贴片焊盘都至少包括一个顶层如Top、钢网层pastemask_top、阻焊层(也就是人们常说的开窗层)sodermask_top,而一个插件焊盘就比贴片多了一个中间层和...

demyar
31分钟前
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部