1 CUDA学习资料合集
2 GPU概念介绍
《GPU的硬件结构与执行原理 —— 开源100天,OneFlow送上“百天大礼包”:深度学习框架如何进行性能优化 》
2.1 内存模型
2.1.1 Bank介绍
《GPU硬件结构之bank —— 开源100天,OneFlow送上“百天大礼包”:深度学习框架如何进行性能优化》
3 算子优化
3.1 Conv
3.1.1 Img2col:卷积优化算法
博文《基于OneFlow实现Unfold、Fold算子》(以下简称为“《Fold优化》”)
本文档详述了OneFlow框架中的CUDA性能优化方法,包括内存模型、算子优化、访存与计算优化等核心内容,并针对具体算子如Conv、LayerNorm、Softmax等进行了深入剖析。
《GPU的硬件结构与执行原理 —— 开源100天,OneFlow送上“百天大礼包”:深度学习框架如何进行性能优化 》
《GPU硬件结构之bank —— 开源100天,OneFlow送上“百天大礼包”:深度学习框架如何进行性能优化》
博文《基于OneFlow实现Unfold、Fold算子》(以下简称为“《Fold优化》”)
4690

被折叠的 条评论
为什么被折叠?