CUDA笔记2-循环展开

最新推荐文章于 2025-12-21 10:08:35 发布

原创

最新推荐文章于 2025-12-21 10:08:35 发布 · 1.9k 阅读

收录于

本文主要探讨了CUDA编程中的循环展开技术，包括串行循环展开和GPU并行循环展开，并通过一个向量运算的例子——计算out=alpha*x+beta*y，来阐述其在加速计算中的应用。

CUDA循环展开

串行循环展开

loop unrolling是一种牺牲程序的尺寸来加快执行速度的优化方法。拿数组来说，数组的数据在内存中是连续存储的，每次取数据的时候可以一次抓取相邻的多个数据，从而减少从内存中读取数据的时间，优化程序。例子：

假设n可以被4整除

未展开程序
 	for(int i = 0; i < n; i++){
 		c[i] = a[i] + b[i];
 	}
 	
 	4层展开程序
 	for(int i = 0; i < n/4; i++){
 		c[i] = a[i] + b[i];
 		c[i+1] = a[i+1] + b[i+1];
 		c[i+2] = a[i+2] + b[i+2];
 		c[i+3] = a[i+3] + b[i+3];
 	}

GPU并行循环展开

在GPU上，同样的也可以进行循环展开优化, 更重要的是展开可以减少warp总得分支，下面是一个简单的程序，将value写入out的N个元素中。

global_write函数未展开版:
	template <class T>
	 __global__ void Global_write(T*out,T value,size_t N){
	 	for ( size_t i = block

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

白菜白菜白

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Professional CUDA C Programming笔记

weixin_43807601的博客

06-20

860

Professional CUDA C Programming笔记

2 条评论您还未登录，请先登录后发表或查看评论

cuda中循环展开和并行归约的代码理解及可视化辅助理解

partyanimalw的博客

12-19

844

首先列出参考文献：代码部分：会了么的个人空间-会了么个人主页-哔哩哔哩视频 (bilibili.com)图片及部分理解部分：Cuda C编程权威指南1.并行规约分化+循环展开-CSDN博客逻辑概念上，grid>block>thread也就是，网格>线程块>线程每个核函数的启动都对应着一个grid，grid中的所有block共享全局内存，每个block又是由许多线程构成的（block内的线程共享共享内存）。CUDA中SIMD的基本单位是一个warp（线程束一般是由32个线程组成，共享寄存器）。threadId

CUDA C编程（六）展开循环以及动态并行

AAAA202012的博客

12-14

4166

展开循环展开循环是一个尝试通过减少分支出现的频率和循环维护指令来优化循环的技术。在循环展开中，循环主体再代码中要多次被编写，而不是只编写一次循环主体再使用另一个循环来反复执行的。任何的封闭循环可将它的迭代次数减少或者完全循环。循环体的复制数量被称为循环展开因子，迭代次数就变为了原始循环迭代次数除以循环展开因子。在顺序数组中，当循环的迭代次数在循环执行之前就已经知道时，循环展开是最有效提升性能的方法。考虑下面的代码： for(int i = 0; i < 100; i++) { a[i] =

CUDA——性能优化之循环展开

weixin_44444450的博客

02-24

7601

循环展开（#pragma unroll） 循环展开顾名思义就是将循环体展开。全部展开或者展开一部分都可以有效提高性能。以下是一个循环体 float sum=0; for(int i=0;i<n;++i) { sum+=a[i]; } 循环部分展开 for(int i=0;i<n;i+=2) { sum+=a[i]+a[i+1]; } ...

编译代码性能优化实践：理解循环展开(pragma unroll)

热门推荐

Briwisdom的博客

12-01

1万+

CUDA的矩阵乘优化经常见到 pragma unroll 的使用，本文通过简单的示例，展示了CPU和CUDA对循环展开前后的性能表现，来通俗理解循环展开的优化策略。

【CUDA 】第3章 CUDA执行模型——3.5循环展开（3）

weixin_44231807的博客

04-15

866

_syncthreads()是用于块内同步的，在归约核函数中，用来保证线程进入下一轮之前，每一轮的所有线程都把局部结果写入全局内存。当只剩下一个线程束时（线程<=32），因为线程束执行是SIMT单指令多线程，每条指令之后有隐式的warp内同步过程。归约循环的最后6个迭代（最后一个warp内）可以用语句展开。这个线程束的展开避免了执行循环控制和线程同步逻辑。volatile关键字：表明编译器对访问该变量的代码就不再进行优化，告诉编译器每次赋值的时候把vmem[tid]的值存回全局内存中。

CUDA 优化的方法-规约，循环展开，模板

czw0723的博客

04-19

1253

大概就是，我们可以通过一些方法对相加等满足交换律和结合律的运算做加速程序执行，在CUDA里面有 1.规约，包括 -------->相邻配对和交叉配对两种方法 2.循环展开 --------->2，4，8展开，甚至全部展开 3.模板 ---------->加速比较弱，但是可以在运行时候自动删除一些代码先放结果自己瞎写的 #include <s...

【cuda学习日记】3.3 CUDA执行模型--展开循环

anbncn1234的博客

01-21

615

CUDA 展开循环

CUDA----规约

UCAS_HMM的博客

10-18

1396

CUDA规约操作

cuda优化-展开循环

打不死的心态活到老

04-08

7792

最近看到了一些循环展开优化程序性能的知识，总结一下。循环展开，即 #pragma unroll N(N为要展开的数值)。一般来说，循环展开主要是为了减少CUDA运行的分支冲突，由于GPU中SM架构的特殊性以及WARP(Half-warp)执行的严格并行性，使得循环语句有着交的的分支冲突，通过循环展开，可以有效的降价分支冲突。如：就是完全循环展开后的形式，但是也可以不完全循环展开，只展开循环

并行编程实战——CUDA编程的内核循环展开

最新发布

fpcc的专栏

12-21

485

本文介绍了循环展开优化技术在CPU和CUDA编程中的应用。循环展开通过减少循环次数、增加单次循环的计算量来提高性能，但需要注意分支惩罚和寄存器占用问题。文章展示了手动和自动（编译器优化）两种循环展开方式，并提供了CUDA中的具体实现示例，包括使用#pragma unroll指令。最后强调优化技术需要灵活应用，避免教条主义。核心思想是不同语言/平台的技术本质相通，只是实现方式各有特点。

CUDA C 循环展开功能 #pragma-unroll

HTMCW的博客

01-02

1297

pragma unroll功能可用于控制任意给定循环的展开。字段放在循环之前，仅适用于该循环。#pragma unroll 1 //不展开。#pragma unroll //完全展开。循环展开适用于loop内部代码较少的循环。

CUDA性能调优（一）--合并访问&循环展开

学习使我快乐

03-25

6088

当同一个warp中的所有线程都执行同一条指令访问全局存储器中的单元时，就获得最有利的访问模式。这种情况下，硬件把所有的这些访问结合或者合并成一个队DRAM连续单元的合并访问。合并访问可以提高DRAM的带宽利用率，使DRAM在传输数据时的速度接近全局存储器带宽的峰值。示例如下： 1 在普通GPU矩阵相乘中的两种访问模式 2 在使用shared memory的矩阵相乘中，使

【CUDA 】第3章 CUDA执行模型——3.5循环展开（1）

weixin_44231807的博客

04-14

681

简单介绍CUDA中loop unrolling(循环展开)技术

bbbeoy的专栏

01-21

1320

https://blog.csdn.net/sinat_33718563/article/details/79262371

CUDA编程(2): 线程束执行的本质、规约问题、循环展开

C/C++、嵌入式开发、深度学习算法、模型部署与推理优化

03-10

1346

CUDA编程(2): 线程束执行的本质、规约问题、循环展开

Cuda C编程权威指南1.并行规约分化+循环展开

knswd的博客

03-09

1046

简介本章节为本人在学习cuda权威编程指南时的一些笔记，大部分代码和权威指南中的示例类似。这里简单谈一下cuda执行模型，首先每个核函数的启动都对应着一个grid，grid中的所有block共享全局内存，每个block又是由许多线程构成的（block内的线程共享共享内存）。但是CUDA中SIMD的基本单位是一个warp（线程束一般是由32个线程组成，共享寄存器）。cuda编程的核心就是保证同时有更多的线程运行，更高的内存利用率。一般上面两个指标会有所取舍。分化：问题：权威指南中的求和问题。最开始的

CUDA简介——For循环并行化

mutourend2010@gmail.com

12-04

1661

CUDA简介——For循环并行化

cuda 怎么读_一、faster-rcnn源码阅读：nms的CUDA编程

weixin_39963287的博客

11-21

500

打算写一系列faster-rcnn的阅读笔记，侧重于程序实现的细节问题。包括安装，版本选择，编译，数据读取，事无巨细的一一细说。没有规划，没有顺序，没有时间节点，信马由缰，有空就写一点。我的理解，faster-crnn是目标检测的一个界碑，虽然核心思想源于rcnn和fast-rcnn，但相对以前的算法，性能和效果都实现了质的飞跃，而后面的算法与faster-rcnn有很...