我有一系列目前在 FPGA 架构中实现的信号处理算法。我想将此处理转移到基于 GPU 的服务器上,但我需要估计需要多少 GPU。执行此任务的最佳方法是什么?我是否应该尝试将每个数学运算分解为一个 FLOP 计数,然后将其全部加起来并希望我在远程范围内?
最佳答案
如果您将 FLOP 计数所需的操作除以 GPU 性能,您将得到所需时间的下限,即使在最好的情况下也是如此,但不能保证 GPU 实际上能够维持所需的性能这个,或者您将能够在任何合理的时间内编写为此所需的程序。我还会查看哪些信号处理库可用于您选择的 GPU,看看它们是否提供了接近您需要的东西。如果你能弄清楚你可以用库调用和一些基于 cpu 的胶水代码做你需要的事情,你可以在没有 GPU 的情况下对胶水代码进行计时,然后查看库规范以确定它们需要多长时间并出现有一个你可以希望在没有太乐观的情况下实现的时间估计。
关于algorithm - 如何通过移植 FPGA 算法来估计 GPU FLOPs?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23924751/