前言:
CUDA与NPU都是并行计算模块,可加速模型推理速度。 FLOPS (floating point operations per second)指硬件设备每秒浮点运算次 数,用于衡量硬件计算性能。
算力常用单位:
FLOPS: FLOPS是每秒浮点数运算次数,一般见于GPU;
TOPS: 通常是指八位定点数运算的次数,一般见于FPGA和ASIC;
1TFLOPS与1TOPS,前者代表是每秒执行1万亿次浮点运算次数,后者代表每秒执行1万亿次运算次数,区别FL即float浮点,大多数NPU都是定点运算,故通TOPS来标称算力。
五个因素影响深度学习模型推理效率:
①数据吞吐量,指运算设备在单位时间内传输的数据量。
②功耗,单位功率内数据吞吐量,数据的计算需要在给定功耗限制下完成。
③时延,指硬件启动后到执行推理的时间,降低延迟对推理加速至关重要。
④推理准确性,在边缘设备的推理结果要与训练时一致。
⑤内存,神经网络推理所需内存主要由算法本身决定,在实际应用时,一个平台可能会部署多个算法,而设备内存大小有限,减小内存对算法应用至关重要。
1、Jetson TX2


3004

被折叠的 条评论
为什么被折叠?



