algorithm - 如何通过移植 FPGA 算法来估计 GPU FLOPs?

标签 algorithm parallel-processing gpu fpga

我有一系列目前在 FPGA 架构中实现的信号处理算法。我想将此处理转移到基于 GPU 的服务器上,但我需要估计需要多少 GPU。执行此任务的最佳方法是什么?我是否应该尝试将每个数学运算分解为一个 FLOP 计数,然后将其全部加起来并希望我在远程范围内?

最佳答案

如果您将 FLOP 计数所需的操作除以 GPU 性能,您将得到所需时间的下限,即使在最好的情况下也是如此,但不能保证 GPU 实际上能够维持所需的性能这个,或者您将能够在任何合理的时间内编写为此所需的程序。我还会查看哪些信号处理库可用于您选择的 GPU,看看它们是否提供了接近您需要的东西。如果你能弄清楚你可以用库调用和一些基于 cpu 的胶水代码做你需要的事情,你可以在没有 GPU 的情况下对胶水代码进行计时,然后查看库规范以确定它们需要多长时间并出现有一个你可以希望在没有太乐观的情况下实现的时间估计。

关于algorithm - 如何通过移植 FPGA 算法来估计 GPU FLOPs?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23924751/

相关文章:

algorithm - 给出定义四面体的 3 个顶点中的 2 个以及它们之间的所有 3 个角,找到第 3 个顶点

c# - 预加载下一个 IEnumerable<T> 值

opencv - opencv gpu中的错误处理

algorithm - 在虚假的海洋中寻找真实的岛屿

algorithm - 寻找用于在特定哈希中转换键和值的算法名称

python - 使用 Numba 在 nd-array 上并行化最大值

python - 在 Python 中决定子进程、多处理和线程?

python - TensorFlow 的 ./configure 在哪里以及如何启用 GPU 支持?

c++ - Thrust 复杂内积在 GPU 上的运行速度比在 CPU 上的 STL 实现慢

java - 逐字遍历句子