machine-learning - GPU 在参数服务器上进行数据并行训练是否高效?

标签 machine-learning tensorflow google-cloud-ml google-cloud-ml-engine

关于data parallel training ,我猜 GPU 实例对于参数服务器来说不一定高效,因为参数服务器只保留值,不运行任何计算,例如矩阵乘法。

因此,我认为 Cloud ML Engine 的示例配置(参数服务器使用CPU,其他服务器使用GPU)以下具有良好的性价比:

trainingInput:
  scaleTier: CUSTOM
  masterType: standard_gpu
  workerType: standard_gpu
  parameterServerType: standard_cpu
  workerCount: 3
  parameterServerCount: 4

是吗?

最佳答案

您的假设是一个合理的经验法则。也就是说,Parag 引用了一篇论文,该论文描述了一种可以在参数服务器中利用 GPU 的模型,因此参数服务器并不总是无法利用 GPU。

一般来说,您可能想在短时间内尝试这两种方法,看看吞吐量是否有所提高。

如果您对实际分配给参数服务器的操作有任何疑问,您可以 log the device placement 。如果参数服务器上的操作看起来可以从 GPU 中受益(假设它们确实应该在那里),那么您可以继续尝试参数服务器中的 GPU。

关于machine-learning - GPU 在参数服务器上进行数据并行训练是否高效?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43406111/

相关文章:

python - 为什么会出现这个错误 "input_2_1:0 is both fed and fetched"?

python - 如何在sklearn中为svm选择参数

python - 导入 tensorflow 错误: DLL load failed: The specified procedure could not be found

python - Tensorflow per_process_gpu_memory_fraction 不工作

google-cloud-ml - 将重新训练的 inception SavedModel 部署到 google cloud ml 引擎

python - Batch Norm - 在 TensorFlow 中提取运行均值和运行方差

model - 从谷歌云 ml 桶加载 Keras 模型

python - 堆叠 RBM 以在 sklearn 中创建深度信念网络

opencv - 需要opencv SVM的快速示例

tensorflow - tf.feature_column.indicator_column 示例