https://github.com/huggingface/transformers/blob/master/examples/run_glue.py
我想调整此脚本以对我的数据进行文本分类。用于此任务的计算机是一台带有两个图形卡的机器。因此,这涉及在上面的脚本中使用术语 local_rank
进行的“分布式”训练,尤其是当 local_rank
等于 0 或 -1 时,如第 83 行。
在阅读了一些关于分布式计算的资料后,我猜 local_rank
就像机器的 ID。而 0 可能意味着这台机器是计算中的“主要”或“头部”。但是 -1 是什么?
最佳答案
Q: But what is -1?
通常,这用于禁用分布式设置。确实,如您所见here :
train_sampler = RandomSampler(train_dataset) if args.local_rank == -1 else DistributedSampler(train_dataset)
和here :
if args.local_rank != -1:
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.local_rank],
output_device=args.local_rank,
find_unused_parameters=True)
将 local_rank
设置为 -1
具有此效果。
关于deep-learning - 局部排名在分布式深度学习中意味着什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58833652/