加载中
【深度学习】— 分布式训练常用技术总结

【深度学习】— 分布式训练常用技术总结 概述 分布式、高并发、多线程,似乎是一个程序员永远逃离不了的3个关键词,只要脱离了单机/单节点,涉及到2台以上的机器,就会碰到分布式。深度学习领...

【深度学习】— 各框架分布式训练简介+测评

【深度学习】— 各框架分布式训练简介+测评 1.各框架分布式简介 1.Pytorch 从官方文档上我们可以看到,pytorch的分布式训练,主要是torch.distributed包所提供,主要包含以下组件: Distribu...

2020/12/08 14:44
2.4K
【翻译】深度学习框架简史(A Brief History of Deep Learning Frameworks)

原文链接:https://towardsdatascience.com/a-brief-history-of-deep-learning-frameworks-8debf3ba6607 作者:Lin Yuan Machine Learning @ Waymo | ex-Amazonian 翻译:赵露阳 过去十年,机...

“黑科技”RDMA如何帮助深度学习模型优化通信网络?

很多人有疑问:为什么深度学习模型需要优化通信网络? 事实上,越是高性能算力的平台,越离不开通信网络的优化。近日,OneFlow创始人袁进辉与熊先奎先生(中兴通讯股份有限公司无线首席架构师...

2020/12/08 14:45
287
CUDA 有 unified memory 还需要内存优化吗?

CUDA 有 unified memory 还需要内存优化吗? 先说结论,不管有没有 unified memory,只要有性能要求的软件,都必需自己做优化。 因为 unified memory 的主要工作,并不是去掉了 Host Memory ...

2020/12/08 14:44
160
仅此一文让你掌握OneFlow框架的系统设计(上篇)

仅此一文让你掌握OneFlow框架的系统设计(上篇) OneFlow开源近半年,近期发布了v0.3.2版本,相较于上个大版本,我们又新增了众多算子和功能(如亚线性内存优化、Partial FC、足够灵活易用的新...

2020/12/28 16:51
2.6K
如何实现一个高效的Softmax CUDA kernel?——OneFlow 性能优化分享

Softmax操作是深度学习模型中最常用的操作之一。在深度学习的分类任务中,网络最后的分类器往往是Softmax + CrossEntropy的组合: 尽管当Softmax和CrossEntropy联合使用时,其数学推导可以约...

01/04 14:19
537
仅此一文让您掌握OneFlow框架的系统设计(下篇)

仅此一文让您掌握OneFlow框架的系统设计(下篇) 本文主要介绍OneFlow系统的运行时(Runtime)的运行流程,以及参与运行时的各个模块是如何协同工作的,还探讨了OneFlow的Actor机制如何解决流水...

2020/12/28 16:52
3K
仅此一文让您掌握OneFlow框架的系统设计(中篇)

本文是OneFlow系统设计分享系列文章的中篇,主要介绍OneFlow的编译期Compiler如何将Job编译为Plan的。其中最精华的部分是OneFlow的Boxing模块,负责构建两个逻辑上的Op对应的两组物理上的Op在...

2020/12/28 16:52
1.5K
快过HugeCTR:用OneFlow轻松实现大型推荐系统引擎

一、简介 Wide & Deep Learning (以下简称 WDL)是解决点击率预估(CTR Prediction)问题比较重要的模型。WDL 在训练时,也面临着点击率预估领域存在的两个挑战:巨大的词表(Embedding Tab...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部