我有一个特殊的问题。
我有一些研究代码是我在我的 macbook 上使用 CUDA 4.1 开发的,尤其是使用 batchedgemm
。我现在必须在我从另一家机构借来的一组 gpu 上运行它。
我的问题是集群只安装了CUDA 4.0,他们不愿意快速升级。
有谁知道我是否可以从某处获取 batchedgemm 的源代码并将其编译为在 4.0 下工作?
我已经编写了自己的内核来进行批量乘法运算,但它的执行速度比库中的内核慢大约 10 - 我想站在伟人的肩膀上而不是站在他们的脚趾上。
最佳答案
我理解人们不愿意快速升级生产集群。许多集群使用模块系统,这意味着多个版本的 CUDA 工具包可以共存。但是,驱动程序需要升级到支持最新使用的 CUDA 的版本。这就是为什么他们不愿意,因为他们需要测试用户的生产代码和应用程序以避免回归或失败。
由于 CUBLAS 不是开源的,我建议您尝试在单独的机器上开发您的代码,如果您从批处理中获得很大的速度提升,请将其作为升级的理由提交给管理员。
关于c++ - batchedgemm源代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9482201/