python - pyCuda,发送多个单变量参数的问题

标签 python python-3.x cuda pycuda

我在这里有一个 pycuda 程序,它从命令行读取图像并用反转的颜色保存一个版本:

import pycuda.autoinit
import pycuda.driver as device
from pycuda.compiler import SourceModule as cpp

import numpy as np
import sys
import cv2

modify_image = cpp("""
__global__ void modify_image(int pixelcount, unsigned char* inputimage, unsigned char* outputimage)
{
  int id = threadIdx.x + blockIdx.x * blockDim.x;
  if (id >= pixelcount)
    return;

  outputimage[id] = 255 - inputimage[id];
}
""").get_function("modify_image")

print("Loading image")

image = cv2.imread(sys.argv[1], cv2.IMREAD_UNCHANGED).astype(np.uint8)

print("Processing image")

pixels = image.shape[0] * image.shape[1]
newchannels = []
for channel in cv2.split(image):
  output = np.zeros_like(channel)
  modify_image(
    device.In(np.int32(pixels)),
    device.In(channel),
    device.Out(output),
    block=(1024,1,1), grid=(pixels // 1024 + 1, 1))
  newchannels.append(output)
finalimage = cv2.merge(newchannels)

print("Saving image")

cv2.imwrite("processed.png", finalimage)

print("Done")

即使在较大的图像上,它也可以正常工作。然而,在尝试扩展程序的功能时,我遇到了一个非常奇怪的问题,在内核中添加第二个变量参数会导致程序完全失败,只是保存了一个完全黑色的图像。以下代码不起作用;
import pycuda.autoinit
import pycuda.driver as device
from pycuda.compiler import SourceModule as cpp

import numpy as np
import sys
import cv2

modify_image = cpp("""
__global__ void modify_image(int pixelcount, int width, unsigned char* inputimage, unsigned char* outputimage)
{
  int id = threadIdx.x + blockIdx.x * blockDim.x;
  if (id >= pixelcount)
    return;

  outputimage[id] = 255 - inputimage[id];
}
""").get_function("modify_image")

print("Loading image")

image = cv2.imread(sys.argv[1], cv2.IMREAD_UNCHANGED).astype(np.uint8)

print("Processing image")

pixels = image.shape[0] * image.shape[1]
newchannels = []
for channel in cv2.split(image):
  output = np.zeros_like(channel)
  modify_image(
    device.In(np.int32(pixels)),
    device.In(np.int32(image.shape[0])),
    device.In(channel),
    device.Out(output),
    block=(1024,1,1), grid=(pixels // 1024 + 1, 1))
  newchannels.append(output)
finalimage = cv2.merge(newchannels)

print("Saving image")

cv2.imwrite("processed.png", finalimage)

print("Done")

唯一的区别在于两行,内核头和它的调用。内核本身的实际代码没有改变,但是这个小小的添加完全破坏了程序。编译器和解释器都不会抛出任何错误。我不知道如何开始调试它,并且非常困惑。

最佳答案

device.In和亲戚被设计用于支持 Python 缓冲区协议(protocol)的对象(如 numpy 数组)。您的问题的根源是使用它们来传输非缓冲对象。

只需将具有正确 numpy dtype 的标量直接传递给内核调用即可。不要使用 device.In .这在原案中奏效的事实完全是个意外

关于python - pyCuda,发送多个单变量参数的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64274956/

相关文章:

python - 如何在与另一个 python 文件不同的目录中运行 python 文件?

c++ - Cuda 错误未定义对 'cufftPlan1d' 的引用?

c - 如何在 CUDA 中轻松切换单精度和 double ?

python - python dict中是否存在检查键

python - 具有 lambda 函数的 Pandas .filter() 方法

python - 正则表达式多个相同模式/重复捕获无法正常工作,仅匹配第一个和最后一个

python - 为什么输入模块会导出 "submodules"?

c++ - 异常后重置 Cuda 上下文

python - 属性错误 : 'DataFrame' object has no attribute 'to_datetime'

python - 根据键值过滤Python字典