c++ - OpenCL 多 GPU 积分 - 将全局大小从 32 更改为 64 时出现段错误

标签 c++ segmentation-fault opencl gpu

我创建了核函数,计算一定范围内的积分并将结果添加到变量(每个 GPU 一个变量),在主机中我将它们全部相加,得到积分(在本例中为 x^2dx)和范围的结果0-8 我的结果是 170,666... 这是真的。 我使用的全局工作大小为 1、2、4、8、16、32,它对所有工作大小都有效,但由于某种原因,当我将 GWS 更改为 64 时,我遇到了段错误。 我有 1 个平台(包含 8 个 GPU 卡) 每个设备都有自己的队列、上下文、内核。

以下是我的代码中的几行:

我创建了 3 个缓冲区,稍后将其传递给内核(第三个缓冲区用于读取结果)。

cl_mem bufferA[deviceNumber];
cl_mem bufferB[deviceNumber];
cl_mem bufferC[deviceNumber];
for(int i = 0; i< deviceNumber; i++){
    bufferA[i] = clCreateBuffer(context[i], CL_MEM_READ_WRITE , sizeof(float) * global_size, NULL, &error);
    bufferB[i] = clCreateBuffer(context[i], CL_MEM_READ_ONLY , sizeof(float) * global_size, NULL, &error);
    bufferC[i] = clCreateBuffer(context[i], CL_MEM_WRITE_ONLY, sizeof(float) * global_size, NULL, &error);
}

稍后在创建和构建程序后我设置了内核参数。

    for(int i = 0; i< deviceNumber; i++){
        error = clSetKernelArg(kernel[i], 0, sizeof(cl_mem), (void*)&bufferA[i]);
        error = clSetKernelArg(kernel[i], 1, sizeof(cl_mem), (void*)&bufferB[i]);
        error = clSetKernelArg(kernel[i], 2, sizeof(cl_mem), (void*)&bufferC[i]);
        error = clSetKernelArg(kernel[i], 3, sizeof(cl_int), (void*)&global_size);
}

并入列 writeBuffers

for(int i = 0; i< deviceNumber; i++){
    error = clEnqueueWriteBuffer(commandQueue[i], bufferA[i], CL_FALSE, 0, sizeof(float) * global_size, a, 0, NULL, NULL);
    error = clEnqueueWriteBuffer(commandQueue[i], bufferB[i], CL_FALSE, 0, sizeof(float) * global_size, &b[i], 0, NULL, NULL);
}

排队内核来完成它们的工作。

for(int i = 0; i< deviceNumber; i++){
    error = clEnqueueNDRangeKernel(commandQueue[i], kernel[i], 1, NULL, &global_size, &localWorkSize, 0, NULL, NULL);
}

最后是发生段错误的地方:

for(int i = 0; i< deviceNumber; i++){
    std::cout<<"clEnqueueReadBuffer: "<<error<<std::endl;
    error = clEnqueueReadBuffer(commandQueue[i], bufferC[i], CL_TRUE, 0, sizeof(float) * global_size, &c[i], 0, NULL, NULL);
}

我到处都在打印错误代码,而且都是 0 我在输出中看到的最后一件事是 clEnqueueReadBuffer 之前的字符串,因此它在 for 循环的第一次迭代中崩溃。

有人知道我在这里错过了什么吗?

最佳答案

找到错误了!

sizeof(float) * global_size

读取大小等于 global_size 的 vector 是可以的,但是在将代码重铸为积分后我完全忘记了这一点,如果您为每个设备读取一个变量,您只需要 sizeof(type) 即可。希望它能帮助别人

关于c++ - OpenCL 多 GPU 积分 - 将全局大小从 32 更改为 64 时出现段错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41347045/

相关文章:

c++ - 在结束前停止迭代器

c++ - 这是在 C++ 中创建单例类的正确方法吗?

c++ - 我正在访问什么错误的内存导致段错误?

c - 如何为C代码分配更多内存

c++ - OpenCL image2d_t 在映射回主机时返回错误值

c++ - 内含数字的动态 ASCII 框

c - 崩溃期间未捕获 SIGSEGV 信号

c++ - 无法理解核心文件分析的 GDB x 命令输出

c - 在 CPU 上运行 OpenCL 代码有什么好处?

opencl - AMD 波前与工作组