加载中
ATorch:蚂蚁开源PyTorch分布式训练扩展库,助你将硬件算力压榨到极致

项目背景 2023年上半年,蚂蚁AI Infra团队开源了DLRover项目,致力于通过提升深度学习训练过程的智能性,来解决整个系统的提效问题,目前DLRover支持了蚂蚁深度学习系统中的自动资源动态优化...

2023/12/26 00:52
8
使用 ChaosBlade 验证 DLRover 的弹性和容错的稳定性

文|王勤龙 (花名:长凡) 蚂蚁集团 AI 系统工程师 ChaosBlade 是阿里巴巴开源的一款遵循混沌工程原理和混沌实验模型的实验注入工具,可以用于验证云原生系统的稳定性。DLRover 作为云原生的...

2023/10/18 10:28
14
KDD 2023 | 蚂蚁“优化器三部曲”之 WSAM

蚂蚁 AI Infra 团队在深度学习最核心之一的优化器方向持续投入与创新,实现了 AI 训练节约资源、加速收敛、提升泛化等目标。我们将推出“优化器三部曲”系列,这是本系列的第一篇。 本文 68...

2023/10/10 18:02
14
DLRover 在 K8s 上千卡级大模型训练稳定性保障的技术实践

文|王勤龙 (花名:长凡) 蚂蚁集团 AI 系统工程师 文|张吉 (花名:理之) 蚂蚁集团 AI 系统工程师 文|兰霆峰 四川大学 20 级计算机系 背景 如今大语言模型 (LLM) 的分布式训练节点规模...

2023/08/02 16:58
610
Hybrid Embedding:蚂蚁集团万亿参数稀疏 CTR 模型解决方案

导读 稀疏 CTR 模型是用于预测点击率的一类深度学习模型的统称。通过处理高维稀疏特征数据实现高效的广告点击率预测,准确的 CTR 预测可以更好地进行广告投放决策,提升广告投放效果。在稀疏...

2023/07/12 16:14
78
VLDB2023|方略:一个交互式的规则研发系统

文|梁仕威(花名:栖川) 蚂蚁集团算法专家 方略平台技术负责人,专注于分布式计算领域,主要负责蚂蚁基础算法的分布式设计与开发。 本文 3419 字 阅读 9 分钟 在类似安全风控这种对抗性的场...

2023/06/28 11:19
59
【开源之夏 2023】欢迎报名 DLRover 社区项目!

开源之夏是由“开源软件供应链点亮计划”发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,促进优秀开源软件社区的蓬勃发展,培养和发掘更多优秀的开发者。 ...

2023/05/15 17:48
85
DLRover:云上自动扩缩容 DeepRec 分布式训练作业案例分享

文|王勤龙(花名:长凡) 蚂蚁集团技术专家 文|韩旭东(花名:玄钛) 蚂蚁集团高级开发工程师 专注于分布式深度学习领域,主要负责蚂蚁大规模分布式训练引擎的设计和开发。 本文 3988 字 ...

2023/04/18 16:16
592

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部