Kubelet Deivce Manager源码分析

本文基于Kubernetes v1.10的代码,对Kubelet Device Manager的实现进行了代码走读分析,方便对kubelet与device plugin的交互有更深入的理解。另外,分别对kubelet的Register服务、kubelet调用...

NVIDIA/k8s-device-plugin源码分析

本文主要对NVIDIA/k8s-device-plugin v1.10的源码进行分析,包括插件的启动、停止、注册、gRPC Server的实现,及其基于Kubernetes device plugin v1beta1的ListAndWatch、Allocate接口实现细...

Kubernetes如何通过Device Plugins来使用NVIDIA GPU

在Kubernetes 1.10版本中,默认并推荐使用DevicePlugins Feature Gate来发现和使用Nvidia GPU资源,抛弃了Kubernetes 1.8之前推荐使用的Accelerators Feature Gate的built-in方式,继承了Kub...

Kubernetes StatefulSet源码分析

Author: xidianwangtao@gmail.com,Based on Kubernetes 1.9 摘要:Kubernetes StatefulSet在1.9版本中stable了,相信以后会有越老越多的企业会使用它来部署有状态应用,比如Mysql、Zookeep...

浅析Kubernetes StatefulSet

Kubernetes 1.5正式发布StatefulSet,在Kubernetes 1.9 stable。这里将对StatefulSet进行解读分析,包括最佳实践、与Deployment的主要区别、Node网络异常等情况下处理方法以及在网络、存储、...

从一次集群雪崩看Kubelet资源预留的正确姿势

在使用Kubernetes时,我会利用kubelet的Node Allocatable特性为Node上的Kube组件和System进程预留一部分资源不被App Pods所占用。我在配置kubelet时遗漏了几个配置项,引发了一次集群雪崩,本...

Flannel是如何工作的

年前我们的TaaS平台遇到很多的网络问题(contiv + ovs +vlan),时间紧迫,只能使用“Flannel + host-gw”这个简单、稳定的网络方案搭建一个小规模的集群来作为紧急备选方案。本文介绍了Flann...

2018/02/26 23:51
2.3K
基于Kubernetes的ESaaS架构及实现细节(二)

ESaaS(ElasticSearch as a Service)是ElasticSearch on Kubernetes的产品实现,是利用Docker和Kubernetes等容器虚拟化和编排调度系统,将ElasticSearch抽象为CaaS(Container as a Service)平...

基于Kubernetes的ESaaS架构及实现细节(一)

ESaaS(ElasticSearch as a Service)是ElasticSearch on Kubernetes的产品实现,是利用Docker和Kubernetes等容器虚拟化和编排调度系统,将ElasticSearch抽象为CaaS(Container as a Service)平...

TensorFlow on Kubernetes的架构与实践

这两年,Kubernetes在企业中的DevOps、微服务领域取得了出色的成绩,从2017年开始,将Kubernetes应用到HPC、AI等领域也成了技术热点。这里我给大家分享一下Kubernetes在AI中的落地经验,内容...

vivo基于Kubernetes构建企业级TaaS平台实践

最近越来越多的同学找我讨论 “TensorFlow on Kubernetes” 的方案和实践,这说明越来越多的企业开始基于Kubernetes和TensorFlow来构建自己的深度学习平台,我们非常愿意同大家交流和分享我们...

2018/01/11 23:29
371
深度解析Kubernetes Pod Disruption Budgets(PDB)

Kubernetes最强大的地方,就是提供了大量厉害的Features,几乎把你能想到的和不能想到的都考虑进去了,虽然有些Features还没GA,但是仍然可以作为你上生产的选项之一,当然前提是你要对这个F...

2017/12/24 23:27
787
深度剖析Kubernetes动态准入控制之Admission Webhooks

本文是对两个External Admission Webhooks(MutatingAdmissionWebhook和ValidatingAdmissionWebhook)的分析,以及如何开发自己的AdmissionWebhook,并且对比Initializers和MutatingAdmissionWe...

深度剖析Kubernetes动态准入控制之Initializers

Kubernetes 1.7引入了两个Alpha Feature,分别是Initializers和External Admission Webhooks(又包括2个Webhook准入控制器),用来解决在这之前的内置的plugin-style admission controllers的...

TensorFlow Serving在Kubernetes中的实践

本文介绍了TensorFlow Serving的配置,尤其是官方文档没作完整介绍的model version policy的配置,另外介绍了编译TensorFlow Serving时的优化实践以及在Kubernetes中的部署,以及使用时的注意...

cluster-proportional-autoscaler源码分析及如何解决KubeDNS性能瓶颈

最近在做TensorFlow on Kubernetes项目,发现一个问题:随着Kubernetes中跑的TensorFlow训练任务规模增大,很快就遇到了KubeDNS性能的瓶颈问题(经常遇到500+ TensorFlow workers规模时,某些...

TensorFlow on Kubernetes性能瓶颈定位

这两天在和AI团队的兄弟们调测训练算法,发现一个现象:worker数和ps数增加到一定量时,并没有带来明显的训练性能提升,瓶颈在哪?是否与ps和worker的布局强相关?从云平台的角度,能做什么工...

如何在Kubernetes集群中利用GPU进行AI训练

本博文主要介绍在Kubernetes集群中如何使用GPUs、使用时的注意事项以及存在的问题,在TensorFlow on Kubernetes项目中做怎样的调整才能使用GPUs进行AI训练等等。...

2017/11/15 22:25
1K
Kubernetes在vivo容器云平台中的应用与实践

本博文是我参加2017/11/04 K8S技术社区深圳站Meetup分享的PPT内容,主要介绍Kubernetes在vivo容器云平台的应用与实践,重点介绍我们跟业界大多数方案不一样的地方,包括整体架构(HA/Securit...

2017/11/09 23:51
3.4K
Kubernetes 1.8抢占式调度Preemption源码分析

本博文是对Kubernetes 1.8中基于Pod优先级抢占式调度Preemption的源码分析,整个过程主要围绕这scheduler的相关源码进行分析,从源码角度解读抢占式调度的全过程,相信从中你会学到很多在官方...

没有更多内容

加载失败,请刷新页面