python - 对 PyTorch 模型使用多处理 CPU 推理的最佳方法是什么？

我必须生产 PyTorch BERT 问答模型。 CPU 推理对我来说非常慢，因为模型需要评估 30 个样本的每个查询。在这 30 个样本的结果中，我选择了得分最高的答案。 GPU 对我来说太昂贵，无法用于推理。

我可以为此利用多处理/并行 CPU 推理吗？如果是，这样做的最佳做法是什么？如果否，是否有一个云选项只对我进行的 GPU 查询收费，而不对连续运行 GPU 实例收费？

最佳答案

获得更好性能的另一种可能方法是尽可能减少模型。

最有前途的技术之一是量化和二值化神经网络。以下是一些引用资料:

关于python - 对 PyTorch 模型使用多处理 CPU 推理的最佳方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55253708/