加载中
CUDA高性能计算经典问题①:归约

撰文 | Will Zhang 本系列为CUDA进阶,通过具体的经典问题,讲述高性能编程的一些基本原则以及方法。建议读者先阅读NVIDIA官方的编程指南完成CUDA入门,基础比较少的同学也建议阅读本人之前写...

11/01 11:12
602
如何实现比PyTorch快6倍的Permute/Transpose算子?

撰文 | 郑泽康、柳俊丞、姚迟、郭冉 无论是在统治NLP届的Transformer,还是最近视觉领域的新秀Vision Transformer,我们都能在模型中看到Transpose/Permute算子的身影,特别是在多头注意力机...

11/01 11:12
442
张建浩:一个开源爱好者的框架开发之路 | OneFlow U

张建浩,一流科技工程师。网名@大缺弦(人称“大老师”),他2018年毕业于中国科学技术大学,也是 ONNX 成员,convertmodel.com、dabnn、DNNLibrary 开源项目作者。 大学时,他曾在 GitHub 发...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部