封装静态2D对象的CUDA结构

标签 c arrays struct cuda 2d

当我创建一个具有 3 深结构的结构并且最深级别有一个 2 维数组时,在使用 CUDA 调试器时在设备上分配内存并访问该数组会导致内存检查器访问冲突错误。这是一个例子:

#include "stdafx.h"

#include <stdio.h>
#include <cuda.h>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>

typedef struct {
    int value;
} Level3;

typedef struct {
    Level3 lvl3ObjArr[10][10];
} Level2;

typedef struct {
    Level2 lvl2Obj;
} Level1;

__global__ void AccessViolationKernel(Level1 *_lvl1Ptr)
{
    int _value;

    _lvl1Ptr->lvl2Obj.lvl3ObjArr[2][5].value = 4;
    _value = _lvl1Ptr->lvl2Obj.lvl3ObjArr[2][5].value;

    printf("Value = %i\n", _value);
}

int _tmain(int argc, _TCHAR* argv[])
{
    Level1 *lvl1Ptr;
    cudaMalloc((void **)&lvl1Ptr, sizeof(Level1));
    AccessViolationKernel<<<5, 1>>>(lvl1Ptr);

    return 0;
}

即使查看内存并添加正确的字节,在使用 CUDA 调试器时,lvl1Ptr 对 lvl3ObjArr[2][5] 的封装引用的所有内容似乎都正确添加。尽管如此,访问的数据不正确,并且 memchecker 抛出访问冲突。

设备上的Level1是否分配不正确?为什么我会遇到访问冲突?

提前致谢!

-- 更新(2013 年 9 月 30 日下午 16:29 CST)--

此代码可以编译(抱歉!),但没有显示错误。我认为这是因为我使用设备 API malloc 而不是 cudaMalloc,并尝试稍后从主机的 CUDA API 访问数据。我需要一段时间才能生成代码来重现这一点,抱歉——我正在减少的源代码有 2800 行长。

最佳答案

好的,找到解决方案了。我在内核中将 cudaMalloc 与 malloc/free 混合在一起。这并不直观,因为我使用 cudaMalloc 分配根,然后使用 malloc 在设备上再次分配它。一些对象仍然通过封装从主机分配,因此设备堆在访问过程中不知道,并且会抛出访问冲突。

关于封装静态2D对象的CUDA结构,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19103532/

相关文章:

c++ - 固定大小结构

struct - 如何在不出现 "use moved value"错误的情况下绑定(bind)盒装结构的多个字段?

c - 某些线程返回垃圾值?

c - 为什么这个 BitBlt 示例不再有效?

c - 在另一个平台上运行一个 c 应用程序

c - 使用 sscanf 将元素添加到每个索引的 int 数组中

c - 数组到数组算术

c - 在分配新结构时遇到问题

c++ - C++ 中的多维可变大小数组

python - 通过平均多个单元格来简化矩阵