youtube - 如何编写用于分布式YoutTube-8m挑战训练的群集规范?

标签 youtube tensorflow

有人可以发布ClusterSpec来对YouTube-8m Challenge code中定义的模型进行分布式培训吗?
The code尝试从TF_CONFIG环境变量加载集群规范。但是,我不确定TF_CONFIG的值是多少。我可以在一台机器上访问2个GPU,并且只想在数据级并行性下运行模型。

最佳答案

如果要以分布式方式运行YouTube 8m挑战代码,则必须编写一个yaml文件(Google提供了一个示例yaml文件),然后需要将该yaml文件的位置作为参数传递。 TF_CONFIG引用了用于训练模型的配置变量。

例如,为了以分布式方式在Google云上运行启动代码,我使用了:

JOB_NAME=yt8m_train_$(date +%Y%m%d_%H%M%S); gcloud --verbosity=debug ml-engine jobs \
submit training $JOB_NAME \
--package-path=youtube-8m --module-name=youtube-8m.train \
--staging-bucket=$BUCKET_NAME --region=us-east1 \
--config=youtube-8m/cloudml-gpu-distributed.yaml \
-- --train_data_pattern='gs://youtube8m-ml-us-east1/1/frame_level/train/train*.tfrecord' \
--frame_features=True --model=LstmModel --feature_names="rgb,audio" \
--feature_sizes="1024, 128" --batch_size=128 \
--train_dir=$BUCKET_NAME/${JOB_TO_EVAL}  


参数config指向具有以下规范的yaml文件cloudml-gpu-distributed.yaml:

trainingInput:
  runtimeVersion: "1.0" 
  scaleTier: CUSTOM
  masterType: standard_gpu
  workerCount: 2
  workerType: standard_gpu 
  parameterServerCount: 2 
  parameterServerType: standard

关于youtube - 如何编写用于分布式YoutTube-8m挑战训练的群集规范?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43382590/

相关文章:

youtube - 是否有 YouTube API 可以为我提供有关视频的结构化元数据?

javascript - Youtube Iframe Api 获取视频标题

python - 如何修复属性错误: module 'tensorflow' has no attribute 'reset_default_graph'

android - 使用 bazel 支持在 android 上构建 tensorflow 时出错

python - 索引错误 : List index out of range.。尽管在范围内?

android - 在YouTube App中嵌入YouTube HTML5的问题

facebook - 如何在 Facebook 上分享 YouTube 视频并在 iPad 上运行?

ios7 - 更改 YTPlayerView 的播放质量

tensorflow - 在 Cloud ML : no module object_detection. 列车上运行的 Tensorflow 对象检测错误

python - 如何在tensorflow中以嵌套方式运行2个 session ?