c++ - batchedgemm源代码？

我有一个特殊的问题。

我有一些研究代码是我在我的 macbook 上使用 CUDA 4.1 开发的，尤其是使用 batchedgemm。我现在必须在我从另一家机构借来的一组 gpu 上运行它。

我的问题是集群只安装了CUDA 4.0，他们不愿意快速升级。

有谁知道我是否可以从某处获取 batchedgemm 的源代码并将其编译为在 4.0 下工作？

我已经编写了自己的内核来进行批量乘法运算，但它的执行速度比库中的内核慢大约 10 - 我想站在伟人的肩膀上而不是站在他们的脚趾上。

最佳答案

我理解人们不愿意快速升级生产集群。许多集群使用模块系统，这意味着多个版本的 CUDA 工具包可以共存。但是，驱动程序需要升级到支持最新使用的 CUDA 的版本。这就是为什么他们不愿意，因为他们需要测试用户的生产代码和应用程序以避免回归或失败。

由于 CUBLAS 不是开源的，我建议您尝试在单独的机器上开发您的代码，如果您从批处理中获得很大的速度提升，请将其作为升级的理由提交给管理员。

关于c++ - batchedgemm源代码？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9482201/