r - R 生成的 PDF 具有不一致的 MD5 校验和

标签 r pdf plot graphics metadata

我正在使用 testthat 测试 R 包。为 S3 方法 plot.foo 编写测试是一件非常头疼的事情,因为它只是返回 NULL,所以我决定将绘图保存到文件中并检查它是否已被自上次运行以来发生了变化。

pdf(file='plot_foo.pdf')
plot.foo(bar)
dev.off()
tools::md5sum('plot_foo.pdf')

问题是每次我使用相同的输入得到不同的结果。不过,输出看起来是一样的。

replicate(10, {
  pdf(file='plot.pdf')
  plot(1:10, 10:1)
  dev.off()
  Sys.sleep(1)
  tools::md5sum('plot.pdf')
})

请注意,您需要在每次迭代之间等待一段时间,否则文件将是相同的,这让我怀疑某些基于时间的元数据已更改。

                          plot.pdf                           plot.pdf
"5a0c096fe088342bc3c3d5960c5da1c9" "40d93c26b4901aef55a32b75473d05d2"
                          plot.pdf                           plot.pdf
"9815c6d9b2e94cda763a486fcd2ddf08" "a8e8db82d06b79f98416fa034b5aee46"
                          plot.pdf                           plot.pdf
"c2770250dbef3b60706559114c434851" "91c8cf124eb61ddebd3edbbb2d01677f"
                          plot.pdf                           plot.pdf
"d1594bd83b97fc890410a4c305366682" "f05197f165ec04df3dac4664494f4617"
                          plot.pdf                           plot.pdf
"64427124c6a6454e8f0e5944de20be95" "ff1abf2b31dfe688cf8f5994e409cc6d"

如何强制 R 生成一致的 PDF?出于测试目的,我暂时切换到 PostScript,但我更喜欢 PDF,因为它支持更好(Windows 似乎没有内置 PostScript 查看器),因此也可以用作文档。

最佳答案

虽然我认为它在某些方面有点粗糙,但我认为 vdiffr 会让您做您需要的事情。

  1. 首先,我要创建一个包;目前是假的,但有必要,因为 vdiffr 只能在严格控制的环境中工作:使用 testthat 的包。

    usethis::create_package("~/StackOverflow/nalzok")
    setwd("~/StackOverflow/nalzok")
    usethis::use_testthat()
    
  2. 创建一个 test_something.R 测试文件。

    context("basic plot tests")
    baseplot1 <- function() hist(1:10)
    vdiffr::expect_doppelganger("base 1", baseplot1)
    

    (我假设 hist(1:10) 是相关且有趣的东西。基本图必须是一个函数,ggplot2 对象则不需要;请参阅文档了解更多信息。)

  3. 我曾以为我可以直接调用 vdiffr::expect_doppelganger (正如大多数 testthat::expect_* 函数通常可以做到的那样),但它需要首先“托管”(设置)。

    vdiffr::manage_cases(".")
    

    每个图像都需要(由人类)“验证”,因此这将打开一个 Shiny 的应用程序,它会迭代每个预期的分身:

    shiny app for image-validation

  4. 验证后,每次测试包时,它都会验证图像​​是否未更改:

    devtools::test()
    # Loading nalzok
    # Testing nalzok
    # v | OK F W S | Context
    # v |  1       | basic plot tests
    # == Results =====================================================================
    # OK:       1
    # Failed:   0
    # Warnings: 0
    # Skipped:  0
    
  5. 如果发生更改(可能将 hist(1:10) 更改为 hist(2:11)),则下一个测试将失败:

    devtools::test()
    # Loading nalzok
    # Testing nalzok
    # v | OK F W S | Context
    # x |  0 1     | basic plot tests
    # --------------------------------------------------------------------------------
    # test_something.R:3: failure: (unknown)
    # Figures don't match: base-1.svg
    # --------------------------------------------------------------------------------
    # == Results =====================================================================
    # OK:       0
    # Failed:   1
    # Warnings: 0
    # Skipped:  0
    

    它通过为每个期望创建一个 ./tests/testthat/figs/ 目录来实现这一点,其中包含一个目录和 .svg 文件,而您不需要要与它交互,对 .../figs/ 进行版本控制是有意义的(您对打包的版本进行控制,对吧?)。 p>

我想有一些警告:

  • 它正在保存到 .svg 文件;如果你的 S3 plot.foo 函数不能很好地与 SVG 配合使用(会发生这种情况吗?我不知道),那么我(还不)不知道如何处理;

  • 由于它使用基于文本的 SVG 格式,因此它会注意到点、框或其他物体是否发生移动,但仅限于一些基本的公差范围内;例如,即使某些元参数(限制)发生了足够的更改,也会触发故障。这通常是好的,因为我相信测试应该能够适应微小的变化(上游库等)。

    hist(1:10)                    # pass
    hist(1:10, xlim=c(0,10))      # pass, that's the default x-limit given the data
    hist(1:10, xlim=c(0,10+1e-5)) # pass, close enough?
    hist(1:10, xlim=c(0,10+1e-4)) # FAIL
    

关于r - R 生成的 PDF 具有不一致的 MD5 校验和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57103888/

相关文章:

r - 为什么词干提取对于情感分析很重要

java - 在浏览器中打开PDF文件漏洞

r - R 中的棘手循环?

r - 如何在矩阵中按行将 0 分配给最小值(以快速/有效的方式)?

r - 如何使用 SF 包计算质心和多边形边缘之间的最大距离?

AngularJS - 在前端/浏览器中突出显示现有 pdf 文件的文本

flash - 有没有办法强制 PDF 在 Adob​​e Reader 而不是插件中打开?

r - 如何删除向量中的未知空格?

python - 无法使用 pandas plot() 函数组合条形图和线图