CUDA调用cudaMemcpyToSymbol时提示“invalid argument“

最新推荐文章于 2024-03-07 01:09:55 发布

原创

最新推荐文章于 2024-03-07 01:09:55 发布 · 876 阅读

标签

#c++

收录于

在CUDA编程中，遇到使用__constant__内存时提示invalidargument的问题，原因是调用cudaMemcpyToSymbol函数时缺少了参数count。解决方案是提供正确的count值和可选的offset，即使offset有默认值，不提供也可能导致错误。按照修正后的调用方式，添加count和offset参数，问题得以解决。

使用常量内存是一直提示"invalid argument"，尝试了各种方法都无法解决

__constant__ float xAxis_d[3];
__constant__ float yAxis_d[3];

int main()
{
    float xAxis_h[3];         //图像x方向
    float yAxis_h[3];         //图像y方向(光线传播方向)
    calRayVector(pose_h, yAxis_h, xAxis_h);         //由位姿计算图像x、y方向
    
    //CHECK(cudaMalloc((float**)&yAxis_d, nByte));   //为设备端分配内存
    //CHECK(cudaMalloc((float**)&xAxis_d, nByte));   //为设备端分配内存
    CHECK(cudaMemcpyToSymbol(yAxis_d, yAxis_h, nByte,  cudaMemcpyHostToDevice));    
    CHECK(cudaMemcpyToSymbol(xAxis_d, xAxis_h, nByte,  cudaMemcpyHostToDevice));   
}

问题原因：调用 cudaMemcpyToSymbol的参数不足，缺少了size_t count，正确调用：

CHECK(cudaMemcpyToSymbol(yAxis_d, yAxis_h, nByte, 0, cudaMemcpyHostToDevice));     
CHECK(cudaMemcpyToSymbol(xAxis_d, xAxis_h, nByte, 0, cudaMemcpyHostToDevice));

cudaMemcpyToSymbol函数原型：

template < class T &g

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MRS小工

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

CUDA error:invalid argument

jacke121的专栏

06-23

4929

当使用torch.view()时出现 RuntimeError: invalid argument 1: input is not contiguous at /pytorch/torch/lib/TH/generic/THTensor.c:231 可以使用 tensor.contiguous() 解决比如： mask[idx, :].view(bat_size, 1) 变成 mask[idx, :].contiguous().view(bat_size, 1) ...

参与评论您还未登录，请先登录后发表或查看评论

cuda error invalid argument

jacke121的专栏

06-23

5657

用pytorch训练时报的错在loss.backward时报错估计应该是loss出现了异常值。

CUDA C编程（十一）CUDA共享内存概述

AAAA202012的博客

12-31

5411

GPU有两种类型的内存：板载内存以及片上内存。其中全局内存是较大的板载内存，具有相对较高的延迟。共享内存是较小的片上内存，具有相对较低的延迟，并且共享内存可以提供比全局内存高得多的带宽。可以把它当作一个可编程管理的缓存，共享内存通常的用途有：块间线程通信的通道；用于全局内存数据的可编程管理的缓存；高速暂存存储器，用于转换数据以优化全局内存访问模式。共享内存共享内存分配共享内存存储体和访问模式配置共享内存量同步 ...

cudaMemcpyToSymbol使用

mindfusion的博客

03-07

9442

学到了cudaMemcpyToSymbol竟然还有将数据从host拷贝到global的功能，以前只用过这个函数拷贝到constant memory。拷贝方式的不同是由目的内存申请的方式决定的。申请的是device内存，cudaMemcpyToSymbol拷贝就是从host拷贝到global memory。申请的是constant内存，cudaMemcpyToSymbol拷贝就是从ho...

CUDA异常处理篇——invalid argument 的解决方法

热门推荐

04-19

3万+

今天在编写cuda程序时，遇到一个很奇怪的问题, 就是在调用核函数时，返回cuda错误信息，报invalid argument 。 cudaError_t error = cudaGetLastError(); printf("CUDA error: %s\n", cudaGetErrorString(error)); 一般的理解是参数异常，有可能是参数过大，一种是非法参数。经过检查，参...

拷贝global memory,cudaMemcpyToSymbol 和cudaMemcpy函数是否有区别

大光叔叔的专栏

04-14

8070

这是今天在群里有人问了这么一个问题 cudaMemcpyToSymbol可以将数据从host拷贝到global，cudaMemcpy也是从host到>global，这种情况下二个函数有什么区别吗？和各位大佬讨论一下后，和大家分享一下~首先，学到了cudaMemcpyToSymbol竟然还有将数据从host拷贝到global的功能，以前只用过这个函数拷贝constant memory。拷贝方式

CUDA中的常量内存__constant__和cudaMemcpyToSymbol

JustForYouForDL的博客

05-27

3547

__constant__声明内存为常量内存使用常量内存可以提升运算性能的原因如下：对常量内存的单次读操作可以广播到其他的“邻近(nearby)”线程，这将节约15次读取操作；高速缓存。常量内存的数据将缓存起来，因此对于相同地址的连续操作将不会产生额外的内存通信量；在CUDA架构中，线程束是指一个包含32个线程的集合，这个线程集合被“编织在一起”并且以“步调一致(Lockstep)”的形式执行。当处理常量内存时，NVIDIA硬件将把单次内存读取操作广播到每个半线程束(Half-Warp).

常量内存cudaMemcpyToSambol

qq_47557331的博客

12-23

743

常量内存一、cudaMemcpyToSymbol cudaMemcpyToSymbol(const void* symbol, const void* src, size_t count);src是原地址，symbol是目标地址，size_t count是内存大小. 二、代码 #include<cuda_runtime.h> #include<iostream> using namespace std; __constant__ float num[40];

CUDA编程——常用存储器的分类与介绍

shandianfengfan的博客

11-09

2805

CUDA的存储器从物理上可分为两类：板载显存（On-board memory）片上内存（On-chip memory）其中板载显存主要包括全局内存（global memory）、本地内存（...

cuMemcpyHtoDAsync failed: invalid argument

jacke121的专栏

07-21

4730

cuMemcpyHtoDAsync failed: invalid argument

运行yolo时，莫名出现cuda error的解决办法

一新新的小白的博客

09-12

2万+

最近在加载yolo模型时，总是无缘无故出现cuda error的错误，初步判断为环境问题，所以讲yolo编译中需要注意的问题总结如下：一、Darknet编译使用GPU要求显卡是Nvidia卡并且正确安装了CUDA。 GPU环境下的编译配置都是在 /darknet/Makefile 文件中定义的，GPU环境的编译有3点更改需要注意。 1. 更改Makefile前两行GPU和CUDNN的配置：...

RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/src/THC/THCGeneral.cpp:405

qq_42647047的博客

05-13

7284

错误 RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/src/THC/THCGeneral.cpp:405 解决：将 torch.backends.cudnn.benchmark = True(该句一般出现在主函数的开头几句) 改为 torch.backends.cudnn.benchmark = False 错误原因： 1、多GPU测试 2、PyTorch版本与显卡不兼容在这里我的报错是由

CUDA全局变量（__device__）的初始化与使用：cudaMemoryToSymbol、cudaMemoryFromSymbol、cudaGetSymbolAddress

RToax

11-29

1万+

在cuda中在设备（device）中声明一个全局变量用__device__关键字修饰： __device__ float devData; 初始化为： float value = 3.14f; cudaMemcpyToSymbol(devData, &value, sizeof(float));在使用结束后，将其转回host： cudaMemcpyFromSymbol(&value, de

CUDA C编程（三十九）将C程序移植到CUDA C的案例研究

AAAA202012的博客

03-20

2048

评估 crypt 并行 crypt 优化 crypt 部署 crypt 多GPU的crypt 混合OpenMP-CUDA Crypt

cudaMemcpyToSymbol()的invalid device symbol问题

细雨如斯

04-13

8983

cudaMemcpyToSymbol()的invalid device symbol问题解决方法，最后解决方案是去掉函数第一个参数的&符号。虽然最后知道了方法很简单，但寻找解决方案的过程很复杂，因而做一下记录。

CUDA编程第五章: 共享内存&常量内存

Janus

02-16

7916

本章大概50页, 2天之内看完前言: 本章内容：了解数据在共享内存中是如何被安排的掌握从二维共享内存到线性全局内存的索引转换解决不同访问模式中存储体中的冲突在共享内存中缓存数据以减少对全局内存的访问使用共享内存避免非合并全局内存的访问理解常量缓存和只读缓存之间的差异使用线程束洗牌指令编程在前面的章节中, 已经介绍了几种全局内存的访问模式. 通过安排全局内存访问模式, 我们学会了如何实现良好的性能并且避免了浪费事务. 未对齐的内存访问是没有问题的, 因为现.

cuda 学习之内存层次结构

xukang95的博客

03-23

3927

文章目录Cuda 内存层次结构registers：寄存器local memory：局部存储器shared memory：共享存储器共享内存-Bank Conflictconstant memory：常数存储器texture memory：纹理存储器global memory：全局存储器全局内存-对齐与合并host memory :主机端内存总结 Cuda 内存层次结构要想编写高效的程序，那么一...

cudaMemcpyToSymbol

dvchn的专栏

03-02

3166

__constant__ int maxI;int dummy = 1;CUDA_SAFE_CALL( cudaMemcpyToSymbol(maxI, &dummy, 1 * sizeof(int)) myKerneldimGrid,dimBlock>>>(a,b,c);_global__ void myKernel(int a, int b, int c)...{

cuda调用cudaMemcpyToSymbol出现cudaErrorInvalidSymbol (13)问题

jiangjjp2812的专栏

04-04

3725

cuda调用cudaMemcpyToSymbol出现cudaErrorInvalidSymbol (13)问题解决方案。写了一段简单的测试代码。 __constant__ int con_var[10]; int _tmain(int argc, _TCHAR* argv[]) { int tmp[10] = { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 };

[CUDA debug] RuntimeError: CUDA error: invalid argument

qq_44419614的博客

03-07

2754

这个错误是因为torch的版本不对，改对torch的版本就行。