python - 为什么我的 CNN 的准确性不可重现?

标签 python numpy tensorflow

我希望我训练的 CNN 获得可重现的结果。因此,我将种子设置为 my script :

import tensorflow as tf
tf.set_random_seed(0)  # make sure results are reproducible
import numpy as np
np.random.seed(0)  # make sure results are reproducible

set_random_seed 的文档和 np.random.seed不要为 0 的种子报告任何特殊行为。

当我在几分钟内在同一台机器上运行相同的脚本两次并且没有进行更新时,我希望得到相同的结果。然而,事实并非如此:

运行 1:

0;0.001733;0.001313
500;0.390164;0.388188

运行 2:

0;0.006986;0.007000
500;0.375288;0.374250

如何让网络产生可重现的结果?

系统

$ python -c "import tensorflow;print(tensorflow.__version__)"                
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcublas.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcudnn.so.5 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcufft.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcurand.so.8.0 locally
1.0.0

$ python -c "import numpy;print(numpy.__version__)"
1.12.0

最佳答案

虽然我没有解决问题,但结果并不总是相同的可能原因如下(从最有可能/最容易修复到最不可能/最难修复大致排序)。问题出现后我也尝试给出解决方案。

  1. 人为错误 - 当您将结果从一个 shell 复制到纸上时,您读错了一个数字/打错了字:日志记录。为您运行的每个实验创建一个 2017-12-31-23-54-experiment-result.log。不是手动, 但实验创造了它。是的,名称中的时间戳以便于再次找到它。对于每个单独的实验,以下所有内容都应记录到该文件中。
  2. 代码 已更改:版本控制(例如 git)
  3. 配置文件更改:版本控制
  4. 伪随机数已更改:为随机/tensorflow/numpy 设置种子(是的,您可能需要设置多个种子)
  5. 数据加载不同/顺序不同:版本控制+种子(预处理真的一样吗?)
  6. 环境变量已更改:Docker
  7. 软件(版本)更改:Docker
  8. 驱动程序(版本)已更改:日志记录
  9. 硬件 更改:日志记录
  10. 硬件/软件存在一些重现性问题。例如 floating point multiplication is not associative GPU 上的不同内核可能会在不同时间完成计算(我不确定)
  11. 硬件有错误

无论如何,多次运行“相同”的东西可能有助于对不同的东西有一个直觉。

写论文

如果你写一篇论文,我认为以下是可重复性的最佳实践:

  1. 添加指向所有代码的存储库(例如 git)的链接
  2. 代码必须容器化(例如 Docker)
  3. 如果有 Python 代码和 requirements.txt,您必须提供确切的软件版本,而不是像 tensorflow>=1.0.0 但是 tensorflow==1.2.3
  4. 添加您用于实验的版本的 git hash。如果您在两者之间进行了更改,则可能是不同的哈希值。
  5. 始终记录有关驱动程序(例如like this for nVidia)和硬件的信息。将此添加到论文的附录中。因此,如果以后发生更改,至少可以检查是否存在可能导致数字不同的更改。

为了记录版本,你可能想使用这样的东西:

#!/usr/bin/env python

# core modules
import subprocess


def get_logstring():
    """
    Get important environment information that might influence experiments.

    Returns
    -------
    logstring : str
    """
    logstring = []
    with open('/proc/cpuinfo') as f:
        cpuinfo = f.readlines()
    for line in cpuinfo:
        if "model name" in line:
            logstring.append("CPU: {}".format(line.strip()))
            break

    with open('/proc/driver/nvidia/version') as f:
        version = f.read().strip()
    logstring.append("GPU driver: {}".format(version))
    logstring.append("VGA: {}".format(find_vga()))
    return "\n".join(logstring)


def find_vga():
    vga = subprocess.check_output("lspci | grep -i 'vga\|3d\|2d'",
                                  shell=True,
                                  executable='/bin/bash')
    return vga


print(get_logstring())

它给出了类似的东西

CPU: model name    : Intel(R) Core(TM) i7-6700HQ CPU @ 2.60GHz
GPU driver: NVRM version: NVIDIA UNIX x86_64 Kernel Module  384.90  Tue Sep 19 19:17:35 PDT 2017
GCC version:  gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.5)
VGA: 00:02.0 VGA compatible controller: Intel Corporation Skylake Integrated Graphics (rev 06)
02:00.0 3D controller: NVIDIA Corporation GM108M [GeForce 940MX] (rev a2)

关于python - 为什么我的 CNN 的准确性不可重现?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42326466/

相关文章:

python - 值错误: Output of generator should be a tuple `(x, y, sample_weight)` or `(x, y)`

tensorflow - 如何使用 Tensorflow 或 GBM 调整模型以获得罕见的二元结果

python - 在 PyCharm IPython 中调试

python numpy linalg 求解器 : Wrong answer

python - 键入 dict.keys(),但 dict.get(key) 返回 None

python - Numpy - 将 2D 数组 reshape 并分区为 3D

python - 不分片的高并发计数器

python - 通过 Python 在 MPI_Init 中启动 Open MPI 时出错

python - 在 Python SQLAlchemy 中创建基于字符串的序列

python - 从源代码构建 Tensorflow 时出现非法指令错误