python - Caffe2:加载 ONNX 模型,并在多核主机/docker 上推断单线程

标签 python docker pytorch caffe2 onnx

当主机有多个内核时,我无法在 docker 中对模型运行推理。模型通过 PyTorch 1.0 ONNX 导出器导出:

torch.onnx.export(pytorch_net, dummyseq, ONNX_MODEL_PATH)

使用单核启动模型服务器(包装在 Flask 中)会产生可接受的性能(cpuset 将进程固定到特定的 cpus)docker run --rm -p 8081:8080 --cpus 0.5 --cpuset-cpus 0 my_container

响应来自 ab -c 1 -n 1000 http://0.0.0.0:8081/predict\?itemids\=5,100

Percentage of the requests served within a certain time (ms)
  50%      5
  66%      5
  75%      5
  80%      5
  90%      7
  95%     46
  98%     48
  99%     49

但是将它固定到四个核心会为同一个 ab-call 提供完全不同的统计信息 docker run --rm -p 8081:8080 --cpus 0.5 --cpuset-cpus 0,1,2,3 my_container

Percentage of the requests served within a certain time (ms)
  50%      9
  66%     12
  75%     14
  80%     18
  90%     62
  95%     66
  98%     69
  99%     69
 100%     77 (longest request)

模型推理是这样完成的,除了这个问题,它似乎按预期工作。 (当然,这在与模型导出完全不同的环境中运行)

from caffe2.python import workspace
from caffe2.python.onnx.backend import Caffe2Backend as c2
from onnx import ModelProto


class Model:
    def __init__(self):
        self.predictor = create_caffe2_predictor(path)

    @staticmethod
    def create_caffe2_predictor(onnx_file_path):
        with open(onnx_file_path, 'rb') as onnx_model:
            onnx_model_proto = ModelProto()
            onnx_model_proto.ParseFromString(onnx_model.read())
            init_net, predict_net = c2.onnx_graph_to_caffe2_net(onnx_model_proto)
            predictor = workspace.Predictor(init_net, predict_net)
        return predictor


    def predict(self, numpy_array):
        return self.predictor.run({'0': numpy_array})

** wrapper flask app which calls Model.predict() on calls to /predict **

OMP_NUM_THREADS=1 也存在于容器环境中,有一些的影响,但不是最终问题。

您在此处看到的基准统计数据是在具有 8 个超线程的本地计算机上运行的,因此我不应该使我的计算机饱和并影响测试。这些结果也出现在我的 kubernetes 环境中,并且在那里我得到了大量的 CFS(完全公平调度程序)限制。

我在 kubernetes 环境中运行,所以我无法控制主机公开多少 CPU,并且在那里进行某种固定似乎也有点 hacky。

有没有办法将 caffe2 模型推断固定到单个处理器?我在这里做明显错误的事情吗? caffe2.Predictor 对象不适合这个任务吗?

任何帮助表示赞赏。

编辑:

我在这里添加了我能想到的最简单的可重现示例,其中包括一个 docker-container 和 run-script:https://github.com/NegatioN/Caffe2Struggles

最佳答案

这不是问题的直接答案,但如果您的目标是在生产中提供 PyTorch 模型(并且只有我现在的 PyTorch 模型),只需使用 PyTorch Tracing似乎是更好的选择。

然后,您可以将其直接加载到 C++ 前端,类似于通过 Caffe2 执行的操作,但 PyTorch 跟踪似乎维护得更好。据我所知,没有速度下降,但配置起来要容易得多。

在单核容器上获得良好性能的一个例子是像以前一样使用 OMP_NUM_THREADS=1 运行,并按如下方式导出模型:

from torch import jit
### Create a model
model.eval()
traced = jit.trace(model, torch.from_numpy(an_array_with_input_size))
traced.save("traced.pt")

然后只需按照上述指南在纯 C++ 中运行模型,或通过 Python 接口(interface)运行:

from torch import jit
model = jit.load("traced.pt")
output = model(some_input)

关于python - Caffe2:加载 ONNX 模型,并在多核主机/docker 上推断单线程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55147193/

相关文章:

amazon-web-services - Amazon ECS - docker 登录未经授权 : authentication required

python - Pytorch 可微分条件(基于索引)和

python - 在创建 pytorch NN 模块时使用列表

python - 如何将模块用作包的一部分并作为可直接执行的脚本?

python - 机器人只需要一个命令

python - pytest : Cannot mock __init__ of my class

docker - 无法使用 NodePort 服务从另一个 pod 访问 pod

azure - 如何在azure web应用程序上部署pgadmin4 docker镜像?

python - BERT 分词器和模型下载

python - 如何提高以下 python 代码的性能