c - 使用包含 float 数组的 OpenCL 将结构传递给 GPU

标签 c arrays opencl

我目前有一些数据想传递给我的 GPU 并将其乘以 2。

我已经创建了一个可以在这里看到的结构:

struct GPUPatternData
{
    cl_int nInput,nOutput,patternCount, offest;
    cl_float* patterns;
};

这个结构应该包含一个 float 组。直到运行时我才知道 float 组,因为它是由用户指定的。

主机代码:

typedef struct GPUPatternDataContatiner
{

    int nodeInput,nodeOutput,patternCount, offest;
    float* patterns;
} GPUPatternData; 
__kernel void patternDataAddition(__global GPUPatternData* gpd,__global GPUPatternData* output)
{
    int index = get_global_id(0);
    if(index < gpd->patternCount)
    {
        output.patterns[index] = gpd.patterns[index]*2;
    }
}

这是主机代码:

GPUPattern::GPUPatternData gpd;    
gpd.nodeInput = ptSet->getInputCount();
gpd.nodeOutput = ptSet->getOutputCount();
gpd.offest = gpd.nodeInput+gpd.nodeOutput;
gpd.patternCount = ptSet->getCount();
gpd.patterns = new cl_float [gpd.patternCount*gpd.offest];

GPUPattern::GPUPatternData gridC;
gridC.nodeInput = ptSet->getInputCount();
gridC.nodeOutput = ptSet->getOutputCount();
gridC.offest = gpd.nodeInput+gpd.nodeOutput;
gridC.patternCount = ptSet->getCount();
gridC.patterns = new cl_float [gpd.patternCount*gpd.offest];

所有的数据都被初始化然后用值初始化然后传递给GPU

int elements = gpd.patternCount;
size_t ofsdf = sizeof(gridC);
size_t dataSize = sizeof(GPUPattern::GPUPatternData)+ (sizeof(cl_float)*elements);

cl_mem bufferA = clCreateBuffer(gpu.context,CL_MEM_READ_ONLY,dataSize,NULL,&err);
openCLErrorCheck(&err);
//Copy the buffer to the device
err = clEnqueueWriteBuffer(queue,bufferA,CL_TRUE,0,dataSize,(void*)&gpd,0,NULL,NULL);

//This buffer is being written to only
cl_mem bufferC = clCreateBuffer(gpu.context,CL_MEM_WRITE_ONLY,dataSize,NULL,&err);
openCLErrorCheck(&err);
err = clEnqueueWriteBuffer(queue,bufferC,CL_TRUE,0,dataSize,(void*)&gridC,0,NULL,NULL);

一切都已构建,我只检查保持在 0 的错误

cl_program program = clCreateProgramWithSource(gpu.context,1, (const char**) &kernelSource,NULL,&err);

////Build program
err = clBuildProgram(program, 0, NULL, NULL, NULL, NULL);

char build[2048];
clGetProgramBuildInfo(program, gpu.device, CL_PROGRAM_BUILD_LOG, 2048, build, NULL);

////Create kernal
cl_kernel kernal = clCreateKernel(program, "patternDataAddition",&err);

////Set kernal arguments
err  = clSetKernelArg(kernal,  0, sizeof(cl_mem), &bufferA);
err |= clSetKernelArg(kernal,  1, sizeof(cl_mem), &bufferC);

然后开始

size_t globalWorkSize = 1024;
size_t localWorkSize = 512;

err = clEnqueueNDRangeKernel(queue, kernal, 1, NULL, &globalWorkSize, &localWorkSize, 0, NULL, NULL); 

clFinish(queue);

此时一切都出错了

err = clEnqueueReadBuffer(queue, bufferC, CL_TRUE, 0, dataSize, &gridC, 0, NULL, NULL);
clFinish(queue);

这种情况下的错误是 -5 (CL_OUT_OF_RESOURCES)。

另外,如果我更改行:

err = clEnqueueReadBuffer(queue, bufferC, CL_TRUE, 0, dataSize, &gridC, 0, NULL, 

到:

err = clEnqueueReadBuffer(queue, bufferC, CL_TRUE, 0, dataSize*1000, &gridC, 0, NULL, NULL);

我收到错误 -30 (CL_INVALID_VALUE)。

所以我的问题是为什么我在回读缓冲区时会收到错误消息。另外我不确定我是否无法使用指向我的 float 数组的指针,因为这会给我错误的 sizeof() used for datasize 这给了我错误的缓冲区大小。

最佳答案

您不能将包含指针的结构传递给 OpenCL

http://www.khronos.org/registry/cl/specs/opencl-1.2.pdf (第 6.9 节)

您可以像 Eric Bainville 指出的那样进行更正,或者如果您对内存的限制不是很严格,您可以做类似的事情

struct GPUPatternData
{
    cl_int nInput,nOutput,patternCount, offest;
    cl_float patterns[MAX_SIZE];
};

编辑:如果内存有问题,可以。由于您只使用 patternspatternCount,您可以从结构中复制模式并将它们分别传递给内核。

struct GPUPatternData
    {
        cl_int nInput,nOutput,patternCount, offest;
        cl_float patterns*;
    };

patternsgpd复制到GPU,并在GPU上的gridC中为patterns分配空间。 然后

你可以单独传递缓冲区

__kernel void patternDataAddition(int gpd_patternCount,
    __global const float * gpd_Patterns,
    __global float * gridC_Patterns) {

    int index = get_global_id(0);
    if(index < gpd_patternCount)
    {
        gridC_Patterns[index] = gpd_Patterns[index]*2;
    }
}

当您从内核返回时,直接将数据复制回gridC.patterns


还有一个:

您不必更改 CPU 结构。它保持不变。然而这部分

size_t dataSize = sizeof(GPUPattern::GPUPatternData)+ (sizeof(cl_float)*elements);

cl_mem bufferA = clCreateBuffer(gpu.context,CL_MEM_READ_ONLY,dataSize,NULL,&err);
openCLErrorCheck(&err);
//Copy the buffer to the device
err = clEnqueueWriteBuffer(queue,bufferA,CL_TRUE,0,dataSize,(void*)&gpd,0,NULL,NULL);

应该改成类似的东西

size_t dataSize = (sizeof(cl_float)*elements);  // HERE
float* gpd_dataPointer = gpd.patterns;    // HERE

cl_mem bufferA = clCreateBuffer(gpu.context,CL_MEM_READ_ONLY,dataSize,NULL,&err);
openCLErrorCheck(&err);

// Now use the gpd_dataPointer
err = clEnqueueWriteBuffer(queue,bufferA,CL_TRUE,0,dataSize,(void*)&(gpd_dataPointer),0,NULL,NULL);

gridC

也是如此

当你复制回去时,将它复制到 gridC_dataPointer 又名 gridC.dataPointer

然后继续使用该结构,就好像什么都没发生一样。

关于c - 使用包含 float 数组的 OpenCL 将结构传递给 GPU,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15639197/

相关文章:

java - 对象数组空指针异常

c - 使用辅助结构在 O(N) 时间内查找数组是否有重复项

c - 是否可以在不知道c中数组长度的情况下使用gets?

c - 为什么 WH_MOUSE 钩子(Hook)不再是全局的?

c - 在C中初始化动态字符数组

c++ - 让 OpenCL 在 Qt5 中与 OpenGL 良好配合的正确方法是什么?

c++ - clGetPlatformIDs 返回两个平台,但它们是相同的

c - char str[] 和 char *str 作为函数参数有什么区别?

arrays - iOS 如何找到浮点/整数值数组的值之间的最小差异

python - 将内核存储在单独的文件中 - PyOpenCL