目录
Tangram: Optimized Coarse-Grained Dataflow for Scalable NN Accelerators
@(论文笔记)
1.Abstract
- 针对层内并行性提出了buffer sharing dataflow。可以将分布式buffer组织为一种共享的buffer,避免了数据的复制与访存。
- 针对层间的pipline,设计了一种alternate layer loop ordering的方法,可以将暂存的数据以一种更加粗粒化的方式进行传播,减小了buffer的需求和pipline延迟。
- 针对复杂的有向无环结构(google net)做了优化。
2.Introduction
提出了两个问题:
- Parallelizing a single NN layer (intra-layer parallelism) leads to signifcant data duplication 层内的卷积并行化导致了很多数据的复制(从一个buffer复制到另一个buffer)
- pipeliningthe processing of multipl


774

被折叠的 条评论
为什么被折叠?



