加载中
vivo基于Kubernetes构建企业级TaaS平台实践

最近越来越多的同学找我讨论 “TensorFlow on Kubernetes” 的方案和实践,这说明越来越多的企业开始基于Kubernetes和TensorFlow来构建自己的深度学习平台,我们非常愿意同大家交流和分享我们...

解析Kubernetes 1.8中的基于Pod优先级的抢占式调度

在 1.8 的发布版本中,SIG Scheduling 通过引入 Pod 优先级和抢占特性扩展了共享集群的概念。这些特性允许在单一集群中混合运行不同类型的应用和任务,提高了集群的利用率和可用性。这些特性...

私有云中Kubernetes Cluster HA方案

发现很多Kubernetes刚入门的同学对Kubernetes的Master高可用方案很感兴趣,官方又只给出了GCE上部署高可用的方案,因此我觉得有必要把我之前做的Kubernetes Master HA方案分享一下。...

2017/10/25 22:23
1K
使用Dubbo+Kubernetes部署线上的TensorFlow Serving服务

Author: xidianwangtao@gmail.com 摘要:本文介绍了在Kubernetes集群中,使用Dubbo+Zookeeper来完成TensorFlow Serving服务的注册与发现、负载均衡的方案,以及使用KubeDNS+Kube2LVS的方案。...

06/10 13:07
311
深度解析Kubernetes Local Persistent Volume

摘要:本文分析了hostPath volume缺陷,然后对local persistent volume的使用场景、基本的工作机制进行了分析,介绍了使用时的注意事项,并简单介绍local volume manager如何帮助administrat...

深入分析Kubernetes Critical Pod(四)

摘要:本文分析了DeamonSetController及PriorityClass Validate时,对CriticalPod的所做的特殊处理。 Daemonset Controller对CriticalPod的特殊处理 深入分析Kubernetes Critical Pod系列: ...

深入分析Kubernetes Critical Pod(一)

大家在Kubernetes集群中部署核心组件时,经常会用到Critical Pod,那么你知道Critical Pod到底有何特别吗?要完整的了解这一点,其实并不是那么简单,它关系到调度、Kubelet Eviction Manage...

深入分析Kubernetes Critical Pod(三)

本文介绍了Kubelet在Predicate Admit准入检查时对CriticalPod的资源抢占的原理,以及Priority Admission Controller对CriticalPod的PriorityClassName特殊处理。 深入分析Kubernetes Critic...

Flannel是如何工作的

年前我们的TaaS平台遇到很多的网络问题(contiv + ovs +vlan),时间紧迫,只能使用“Flannel + host-gw”这个简单、稳定的网络方案搭建一个小规模的集群来作为紧急备选方案。本文介绍了Flann...

02/26 23:51
1K
剖析Kubernetes EnableEquivalenceClassCache提升Scheduler吞吐量的工作机制

Equivalence Class是用来给Kubernetes Scheduler加速Predicate,从而提升Scheduler的吞吐性能。Kubernetes scheduler维护着Equivalence Cache的数据,当有Pod进入到Predicate阶段时,会先从E...

Kubernetes 1.8抢占式调度Preemption源码分析

本博文是对Kubernetes 1.8中基于Pod优先级抢占式调度Preemption的源码分析,整个过程主要围绕这scheduler的相关源码进行分析,从源码角度解读抢占式调度的全过程,相信从中你会学到很多在官方...

深入分析Kubernetes Scheduler的优先级队列

从1.9版本开始,Kubernetes实现了基于Pod优先级的调度队列,一方面提供高优先级的Pod优先被调度的能力,另一方面减轻抢占式调度时潜在的High Priority Pod Starvation的问题,截止Kubernete...

深入分析Kubernetes Scheduler的NominatedPods

Author: xidianwangtao@gmail.com 在Kubernetes 1.8抢占式调度Preemption源码分析中,有好几处我们提到了NominatedPods,当时没有给出足够的分析,今天我们就重点分析一下NominatedPods的意义...

如何落地TensorFlow on Kubernetes

TensorFlow 作为最受欢迎的 Deep Learning 框架,已经火到没有朋友,然而在落地时,你会发现 TensorFlow 也并不是那么完美,它面临着资源隔离、进程难于管理、 PS 进程不能自动结束等诸多问题...

NVIDIA/k8s-device-plugin源码分析

本文主要对NVIDIA/k8s-device-plugin v1.10的源码进行分析,包括插件的启动、停止、注册、gRPC Server的实现,及其基于Kubernetes device plugin v1beta1的ListAndWatch、Allocate接口实现细...

Kubelet Deivce Manager源码分析

本文基于Kubernetes v1.10的代码,对Kubelet Device Manager的实现进行了代码走读分析,方便对kubelet与device plugin的交互有更深入的理解。另外,分别对kubelet的Register服务、kubelet调用...

深入分析Kubernetes Critical Pod(二)

深入分析Kubernetes Critical Pod(一)介绍了Scheduler对Critical Pod的处理逻辑,下面我们再看下Kubelet Eviction Manager对Critical Pod的处理逻辑是怎样的,以便我们了解Kubelet Evict P...

利用Kubernetes和Helm进行高效的超参数调优

Author: xidianwangtao@gmail.com 摘要:本文将讨论Hyperparameter调优在落地时面临的问题,以及如何利用Kubernetes+Helm解决这些问题。 Hyperparameter Sweep面临的问题 在进行Hyperparame...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部