我正在尝试在一个NVIDIA Tesla V100 GPU上将Tensorflow作为服务运行。作为服务器,我的程序需要同时接受多个请求。因此,我的问题如下:
任何建议将被认真考虑。谢谢!
最佳答案
关于#1:由于TF为每个物理GPU设备(https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/common_runtime/gpu/gpu_device.cc#L284)使用全局单个计算流,因此所有请求将依次在同一GPU上运行
关于#2:就多流而言,这两个选项相似:默认情况下,不启用多流。如果要尝试多流,可以尝试virtual_device
选项(https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/protobuf/config.proto#L138)
谢谢。
关于multithreading - 可以在一个GPU上并行运行多个 tensorflow 推论吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55907275/