c++ - batchedgemm源代码?

标签 c++ cuda nvidia blas

我有一个特殊的问题。

我有一些研究代码是我在我的 macbook 上使用 CUDA 4.1 开发的,尤其是使用 batchedgemm。我现在必须在我从另一家机构借来的一组 gpu 上运行它。

我的问题是集群只安装了CUDA 4.0,他们不愿意快速升级。

有谁知道我是否可以从某处获取 batchedgemm 的源代码并将其编译为在 4.0 下工作?

我已经编写了自己的内核来进行批量乘法运算,但它的执行速度比库中的内核慢大约 10 - 我想站在伟人的肩膀上而不是站在他们的脚趾上。

最佳答案

我理解人们不愿意快速升级生产集群。许多集群使用模块系统,这意味着多个版本的 CUDA 工具包可以共存。但是,驱动程序需要升级到支持最新使用的 CUDA 的版本。这就是为什么他们不愿意,因为他们需要测试用户的生产代码和应用程​​序以避免回归或失败。

由于 CUBLAS 不是开源的,我建议您尝试在单独的机器上开发您的代码,如果您从批处理中获得很大的速度提升,请将其作为升级的理由提交给管理员。

关于c++ - batchedgemm源代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9482201/

相关文章:

performance - CUDA:示例代码具有 300% 多 GPU 缩放/性能优化

c++ - 自动为 C++ 函数添加函数前缀

cuda - 使用 Vulkan VkImage 作为 CUDA cuArray

nvidia - 在 ubuntu 18.04 上使用 libnvinfer7 库(Cuda 10.2)安装 TensorRT 面临的问题

c++ - C++ 中的复合模式

c++ - 获取 4 位整数的倒数第二个值

c++ - boost 线程池和进程之间的互斥量

c++ - 如何使用 C++/WinRT 和 ANGLE 创建 EGLSurface?

c++ - 2d thrust::device_vector 到内核

driver - 我可以在分发给非开发人员机器的应用程序中使用 openCL 吗?