python - Python 中的自动 CudaMat 转换

标签 python optimization matrix cuda pycuda

我正在研究使用某种形式的 CUDA 来加速我的 python 代码,这些代码都是矩阵数学。目前我的代码使用的是 Python 和 Numpy,因此使用 PyCUDA 或 CudaMat 之类的东西重写它似乎不难。

然而,在我第一次尝试使用 CudaMat 时,我意识到我必须重新排列很多方程式才能将所有操作都放在 GPU 上。这包括创建许多临时变量,以便我可以存储操作结果。

我理解为什么这是必要的,但它使曾经易于阅读的方程式变得有些困惑,难以检查正确性。此外,我希望以后能够轻松修改未转换形式的方程式。

Theano 包通过首先创建操作的符号表示,然后将它们编译到 CUDA 来设法做到这一点。然而,在试用了一下 Theano 之后,我对一切的不透明感到很沮丧。例如,仅获取 myvar.shape[0] 的实际值变得很困难,因为直到很晚才对树进行评估。我也更喜欢一个框架,在这个框架中,我的代码非常符合一个库,它在 Numpy 的位置上以无形的方式运行。

因此,我真正想要的是简单得多的东西。我不想要自动微分(如果我需要的话,还有像 OpenOpt 这样的其他包可以做到这一点),或者树的优化,而只是从标准 Numpy 符号到 CudaMat/PyCUDA/somethingCUDA 的转换。事实上,我希望能够在没有任何用于测试的 CUDA 代码的情况下将其评估为 Numpy。

我目前正在考虑自己写这篇文章,但在考虑这样的冒险之前,我想看看是否有其他人知道类似的项目或一个好的起点。我知道可能与此接近的唯一另一个项目是 SymPy,但我不知道适应这个目的会有多容易。

我目前的想法是创建一个看起来像 Numpy.array 类的数组类。它的唯一功能是 build 一棵树。在任何时候,该符号数组类都可以转换为 Numpy 数组类并进行计算(也将是一对一的奇偶校验)。或者,可以遍历数组类并生成 CudaMat 命令。如果需要优化,可以在该阶段完成(例如,重新排序操作、创建临时变量等),而不会妨碍检查正在发生的事情。

任何想法/评论/等。对此将不胜感激!

更新

一个用例可能看起来像(其中 sym 是理论模块),我们可能会在其中做一些事情,例如计算梯度:

W = sym.array(np.rand(size=(numVisible, numHidden)))
delta_o = -(x - z)
delta_h = sym.dot(delta_o, W)*h*(1.0-h)
grad_W = sym.dot(X.T, delta_h)

在这种情况下,grad_W 实际上只是一棵包含需要完成的操作的树。如果您想正常评估表达式(即通过 Numpy),您可以这样做:

npGrad_W = grad_W.asNumpy()

这只会执行树代表的 Numpy 命令。另一方面,如果您想使用 CUDA,您可以:

cudaGrad_W = grad_W.asCUDA()

这会将树转换为可通过 CUDA 执行的表达式(这可能以几种不同的方式发生)。

这样就可以轻松地:(1) 测试 grad_W.asNumpy() == grad_W.asCUDA(),以及 (2) 将您现有的代码转换为使用 CUDA。

最佳答案

您看过 PyCUDA 的 GPUArray 部分吗?

http://documen.tician.de/pycuda/array.html

虽然我自己没有使用过它,但它似乎就是您要找的东西。特别是查看该页面底部附近的“单次自定义表达式求值”部分。

关于python - Python 中的自动 CudaMat 转换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6735651/

相关文章:

python - 如何根据文件中的一个占位符写入字典键和值

python - Python 中的有用继承。接口(interface)的替代方案

python - 获取稀疏矩阵中每个元素的日志

f# - 如何在 F# 中反转矩阵?

matlab - 通过 2D 表面投影分析 3D 点云

python - 如何在 Python 中对类实例使用多处理?

python - Eratosthenes 筛优化

c - 如何在 SSE 中有效地结合比较?

Swift - 如何在一群人之间平均分配一笔钱?

jquery - AngularJS 1 - 创建一个带有可扩展标题和列的矩阵