提升CUDA程序运行效率的几个关键点_cuda核函数处理速度不稳定的原因及解决方法-CSDN博客

本文介绍了CUDA编程中提升GPU性能的策略，包括理解GPU资源，优化数据传输，减少内存冲突，以及利用性能分析工具进行程序优化。重点在于合理分配GPU资源，提高PCI接口吞吐量，优化内存访问，并通过流并行实现任务并发。同时，建议使用NVVP和nvprof等工具进行性能分析以进一步提升计算效率。

1、明确计算机中GPU卡片的计算资源，决定变量的性质（constant，share还是global）以及Grid，Block的维度，充分并合理利用GPU显卡的资源

2、提高PCI接口与GPU显卡的数据吞吐量

3、优化GPU内部存储到处理器之间的数据传输效率

4、利用性能分析工具进行程序性能分析，根据建议进行程序的性能优化

最近由于项目需要，需要用MPI+CUDA混合编程提高程序运行效率。相对于MPI并行程序编程，要想充分利用CUDA的资源利用率，还是要考虑很多方面的内容，根据查找的一些相关资料，将提升GPU显卡吞吐率以及利用效率的方法归纳如下，如有问题，敬请批评指正。下面是进行CUDA编程的大致流程，为了避免混乱，会将相关的详细内容放到链接所示的位置。

1、明确计算机中GPU卡片的计算资源，决定变量的性质（constant，share还是global）以及Grid，Block的维度，充分并合理利用GPU显卡的资源

在进行程序编写前需要明确知道计算机资源，尤其是显卡资源是很宝贵的，在实际编程中需要进行综合考虑，然后再进行参数的具体设置。首先得明白显卡的基本的一些信息，可以通过安装NVIDIA_SAMPLES来进行显卡基本信息的获取，NVIDIA_CUDA-9.1_Samples/1_Utilities/deviceQuery，我的机器的GPU显卡的具体信息如下：

这里面的每一条信息都是很重要的，其中我们平时用的最多的还是“Total amount of global memory，Multiprocessors, CUDA Cores/MP，L2 Cache Size，Maximum Texture Dimension Size (x,y,z)，Total amount of constant memory，Total amount of shared memory per block，Total number of registers available per block，Warp size，Maximum number of threads per multiprocessor，Maximum number of threads per block，Max dimension size of a thread block (x,y,z)，Max dimension size of a grid size (x,y,z)，Integrated GPU sharing Host Memory，Support host page-locked memory mapping，Device has ECC support”等等，在地球物理相关的CUDA程序编写中，关注这些参数就已经足够了。对于一个程序在运行时对显卡资源的分配问题，详细内容可以点击下面两个链接。