ARM的NEON协处理器技术是一个64/128-bit的混合SIMD架构,用于加速包括视频编码解码、音频解码编码、3D图像、语音和图像等多媒体和信号处理应用。本文主要介绍如何使用NEON的汇编程序来写SIMD的代码,包括如何开始NEON的开发,如何高效的利用NEON。首先会关注内存操作,即如何变更指令来灵活有效的加载和存储数据。接下来是由于SIMD指令的应用而导致剩下的若干个单元的处理,然后是用一个矩阵乘法的例子来说明用NEON来进行SIMD优化,最后关注如何用NEON来优化各种各样的移位操作,左移或者右移以及双向移位等。本节是一个用NEON优化矩阵乘法的实例。
矩阵
本节将介绍如何用NEON有效的处理一个4x4的矩阵乘法运算,这种类型的运算经常用于3D图形,我们认为这些矩阵在内存里是按照列为主排列的,这是按照OPENGL-ES的通用格式。
矩阵乘法算法
我们首先看一下矩阵乘法的计算方式,计算的展开,用NEON指令来进行子操作过程。

图1. 以列为主的矩阵乘法运算
由于数据是按照列序存储的,因而矩阵乘法就是把第一个矩阵的每一列乘以第二个矩阵的每一行,然后把乘积结果相加。乘累加结果 作为结果矩阵的一个元素。

图2. 矩阵乘法中的向量乘以标量的运算
假设每列元素在NEON寄存器中表示为一个向量,那么上述的矩阵乘法就是一个向量乘以标量的运算,而后续的累加也同样可以同向量乘

本文介绍了如何使用ARM NEON协处理器进行浮点和定点矩阵乘法运算的优化。讲解了NEON的内存操作、SIMD指令应用,以及通过矩阵乘法实例展示了如何进行NEON优化,包括浮点运算版本和定点算法的实现。通过指令重排等技术,可以在Cortex-A8平台上实现性能翻倍。

1455

被折叠的 条评论
为什么被折叠?



