多网卡容器网络加速离线训练的实践 | KCD 深圳站

2023/12/13 20:59
阅读数 28

Kubernetes Community Days 

深圳站


Kubernetes Community Days(KCD)由云原生计算基金会(CNCF)发起,由全球各国当地的 CNCF 大使、CNCF 员工以及 CNCF 会员单位联合组织。


目前 KCD 正在全球各个国家活跃地组织进行中,KCD 聚集了来自云原生领域开源社区的最终用户、贡献者和技术专家,这一系列的活动有助于提高 Kubernetes 社区的活跃度并完善其发展潜力,使更多用户能接触到云原生信息,也推动云原生技术在不同行业中更广泛的传播。


 vivo 作为 CNCF 会员,将在本次活动中分享以下议题:


vivo @ KCD 议题


张荣 

欧锡培


演讲主题:多网卡容器网络加速离线训练的实践

议题介绍:

离线任务依赖RDMA通信来提高训练速度。vivo主要通过Infiniband和TCP网络构建离线训练集群,其中Infiniband网络的集群中pod使用host网络,导致一个节点只能运行一个pod; 同时也存在大量的训练的使用tcp网络,训练效率较低的情况。为了构建统一的网络架构,使用基于K8s、calico和RoCEv2网络构建多网卡容器,容器calico网络用于远端数据获取,RoCEv2网络用于pod之间通过RDMA数据通信,这给K8s集群的维护和使用带来了新的挑战。


1. 如何在离线平台将训练任务从单网卡迁移到多网卡 

2. 如何将RoCEv2无丢包网络集成到k8s网络中 

3. 如何在K8s pod中使用RoCEv2网络 

4. 如何规划网络拓扑和ip分配。 


本主题还将介绍一些常用的容器编排工具和网络插件,如Volcano、SpiderPool、Macvlan和MultusCNI等,以帮助参与者更好地理解和容器多网卡技术的应用。


听众收益:

这是一个非常有意义的主题,涵盖了vivo在多网卡容器和分布式系统中的网络问题方面的最佳实践。它可以吸引对容器和分布式系统感兴趣的开发人员和系统管理员。此外,它还提供了广泛的主题,涵盖了容器网络拓扑、路由、负载平衡、安全性、监控和其他方面,以帮助读者更好地理解和应用多nic容器技术。

【论坛】:云原生主会场

【演讲时间】:12月16日 11:25-11:55



会议整体议程


本文分享自微信公众号 - vivo互联网技术(vivoVMIC)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

展开阅读全文
加载中
点击引领话题📣 发布并加入讨论🔥
打赏
0 评论
0 收藏
0
分享
返回顶部
顶部