softmax的高效CUDA编程和oneflow实现初步解析
于 2023-10-31 09:19:27 首次发布
本文深入探讨了softmax的CUDA实现,通过分析oneflow的源代码,介绍了blockAllreduce和warpReduce的概念及其优化手段。针对[4,1200,700]等特殊案例,提出了自适应线程块形状、寄存器优化等方法,以提高计算速度,与pytorch自带的softmax进行了对比,并展示了不同优化版本的代码实现。"
133223049,19671515,使用jQuery动态移除元素readonly属性,"['jQuery', '前端开发', 'HTML', '属性操作']

订阅专栏 解锁全文

1536

被折叠的 条评论
为什么被折叠?



