python - 如何在GPU上进行训练时处理非确定性？

在调整超参数以使我的模型更好地执行时，我注意到每次运行代码时，我得到的分数（以及由此创建的模型）是不同的，尽管为随机操作修复了所有种子。如果我在CPU上运行，这个问题就不会发生。
我在谷歌上搜索，发现使用GPU进行培训时，这是一个常见问题。Here is a very good/detailed example with short code snippets to verify the existence of that problem.
他们将非决定论精确定位为“tf.reduce_sum”函数。但是，我不这么认为。可能是因为我使用了不同的硬件（1080ti）或者不同版本的CUDA库或TensorFlow。似乎CUDA库中有许多不同的部分是不确定的，并且似乎不容易准确地找出哪个部分以及如何摆脱它。而且，这一定是通过设计实现的，因此很可能会有足够的效率提高，以换取不确定性。
所以，我的问题是：
由于GPU在训练NNS中很受欢迎，所以这个领域的人们必须有一种方法来处理不确定性，因为我不知道你还能如何可靠地调整超参数。使用GPU时，处理不确定性的标准方法是什么？

最佳答案

铊
先验确定性操作的非确定性来自于Concurrent（多线程）实现。
尽管在这方面不断取得进展，但TensorFlow目前并不能保证其所有操作都具有确定性。在互联网上快速搜索之后，情况似乎与其他主要工具包相似。
在培训期间，除非您正在调试一个问题，否则运行之间会有波动。培训的本质是不确定性，因此在比较结果时（即使工具包最终在培训中达到完美的决定论），测量和考虑不确定性是明智的。
但是要长得多
当你把神经网络操作看作数学操作时，你会期望所有的事情都是确定性的。卷积、激活、交叉熵——这里的一切都是数学方程，应该是确定性的。即使是诸如洗牌、退场、噪音等伪随机操作，也完全由种子决定。
另一方面，当您从计算实现中看到这些操作时，您会将它们视为大规模并行计算，除非非常小心，否则这可能是随机性的来源。
问题的核心是，当您在几个并行线程上运行操作时，通常不知道哪个线程将首先结束。当线程对自己的数据进行操作时，这并不重要，例如，对张量应用激活函数应该是确定性的。但是，当这些线程需要同步时，例如计算一个和时，结果可能取决于和的顺序，进而取决于线程首先结束的顺序。
从这里，您可以大致地说有两种选择：
保持与更简单的实现相关联的非确定性。
在设计并行算法时要格外小心，以减少或消除计算中的不确定性。增加的约束通常会导致较慢的算法
哪条路走Cudnn？嗯，主要是确定性的。在最近的版本中，确定性操作是规范而不是例外。但它曾经提供许多非确定性的操作，更重要的是，它没有提供一些操作，比如减少，人们需要在CUDA中实现自己，并对确定性有不同程度的考虑。
有些库（如Theano）在这些主题上比以前提前了很多，它们在用户可以打开或关闭的deterministic标志上提前公开——但是从其描述中可以看出，它远不能提供任何保证。
如果more，有时我们会选择一些更具确定性但速度较慢的实现。尤其是在GPU上，我们将避免使用atomicadd。有时我们仍然会使用非确定性实现，例如，当我们没有确定性的GPU实现时。另请参阅dnn.conv.algo*标记以涵盖更多的情况。
在TensorFlow中，认识到对决定论的需要已经相当晚了，但它正在缓慢地到达那里——这也得益于Cudnn在这方面的进步。在很长一段时间内，缩减是不确定性的，但现在它们似乎是确定性的。Cudnn在版本6.0中引入了确定性的减少，这一事实当然会有所帮助。
目前看来，the main obstacle for tensorflow towards determinism is the backward pass of the convolution。这确实是Cudnn为数不多的几个提出非确定性算法（标记为CUDNN_CONVOLUTION_BWD_FILTER_ALGO_0）的操作之一。该算法在TensorFlow中仍处于the list of possible choices for the backward filter状态。由于the choice of the filter seems to be based on performance，如果它更有效的话，它确实可以被选中。（我对ToSoFLoad的C++代码不太熟悉，所以请带上一点盐。）
这很重要吗？
如果您正在调试一个问题，确定性并不重要：它是强制性的。您需要重现导致问题的步骤。这对于像TensorFlow这样的工具包来说是一个真正的问题。为了缓解这个问题，您唯一的选择是实时调试，在正确的位置添加检查和断点——不太好。
部署是事物的另一个方面，在那里，人们通常希望有一个确定性的行为，部分是为了让人类接受。虽然没有人会合理地期望医学诊断算法永远不会失败，但是计算机根据运行情况给同一个病人提供不同的诊断是很尴尬的。（尽管医生本身并不能对这种变异免疫）。
这些原因是修复神经网络中不确定性的正当动机。
对于所有其他方面，我想说我们需要接受，如果不接受，神经网络训练的非确定性。无论出于何种目的，训练都是随机的。我们使用随机梯度下降、随机洗牌数据、随机初始化和退出——更重要的是，训练数据本身就是一个随机的数据样本。从这个角度来看，计算机只能用种子生成伪随机数这一事实是人为的。当你训练时，你的损失是一个值，由于这种随机性，它也伴随着一个置信区间。比较这些值以优化超参数，而忽略这些置信区间并没有多大意义——因此，在我看来，花太多的精力来解决这种情况以及许多其他情况下的不确定性是徒劳的。

关于python - 如何在GPU上进行训练时处理非确定性？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50744565/

python - 如何在GPU上进行训练时处理非确定性？

上一篇：python - 为什么 "_"并不总是给我交互式 shell 中的最后结果

下一篇：python - 排序 python 3.7+ 字典的最快方法