我必须生产 PyTorch BERT 问答模型。 CPU 推理对我来说非常慢,因为模型需要评估 30 个样本的每个查询。在这 30 个样本的结果中,我选择了得分最高的答案。 GPU 对我来说太昂贵,无法用于推理。
我可以为此利用多处理/并行 CPU 推理吗? 如果是,这样做的最佳做法是什么? 如果否,是否有一个云选项只对我进行的 GPU 查询收费,而不对连续运行 GPU 实例收费?
最佳答案
获得更好性能的另一种可能方法是尽可能减少模型。
最有前途的技术之一是量化和二值化神经网络。以下是一些引用资料:
关于python - 对 PyTorch 模型使用多处理 CPU 推理的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55253708/