r - 哪种提取方法最快？

给定列表

li = list(a = list(b = list(1:3)))

以下提取方法给出相同的结果:

li[["a"]][["b"]][[1]][[2]]
[1] 2

purrr::pluck(li, "a", "b", 1, 2)
[1] 2

for (i in list("a", "b", 1, 2)) li = `[[`(li, i)
li
[1] 2

purrr::pluck 和 for 具有明显的优势，即可以通过编程方式构建嵌套索引向量。在以下方面比较它们时有什么需要考虑的吗:

性能(例如，“链式”[[ 方法与 for 方法有显着不同/更快吗？)
一种方法可能会提供与其他方法不同的结果的边缘情况

最佳答案

虽然我不明白你问“哪种方法最快”和“不仅是执行速度”是什么意思。如果您指的是渐近性能，那么也许我们可以稍微扩大列表以进行测试。 (如果你指的是代码优雅、惯用性或其他什么，那么这可能不是最明确的问题。)

我有第四个建议:

Reduce(`[[`, list('a','b',1L,2L), init=li)

性能比较:

microbenchmark::microbenchmark(
  base = li[["a"]][["b"]][[1]][[2]],
  purrr = purrr::pluck(li, "a", "b", 1, 2),
  "for" = { li0 <- li; for (i in list("a", "b", 1, 2)) li0 = `[[`(li0, i)}, 
  reduce = Reduce(`[[`, list('a', 'b', 1L, 2L), init=li)
)
# Unit: microseconds
#    expr    min      lq     mean  median      uq    max neval
#    base    1.5    2.65    3.747    3.60    4.95    8.9   100
#   purrr   33.9   62.00   73.727   67.70   91.90  159.1   100
#     for 2716.7 3465.65 4671.615 5120.05 5353.00 6090.2   100
#  reduce    9.6   18.60   23.519   21.50   28.10   73.5   100

让我们尝试使用更大的列表:

gargantuan <- setNames(1:2600, paste0(rep(LETTERS, times=100), rep(1:100, each=26)))
li = c(gargantuan, list(a = c(gargantuan, list(b = list(1:3)))))
li[["a"]][["b"]][[1]][[2]]
# [1] 2
### other tests confirm the results are identical

# Unit: microseconds
#    expr    min      lq     mean  median      uq    max neval
#    base   35.8   74.85  132.272  142.85  194.35  211.4   100
#   purrr  102.2  210.60  313.105  354.00  396.80  519.4   100
#     for 2151.8 3082.55 4338.619 4744.00 5354.95 5841.4   100
#  reduce   40.8   94.00  160.764  177.80  223.45  239.5   100

这表明 Reduce 解决方案仅被文字/常量基础版本打败，并且对于Reduce 比 purrr::pluck 快一点，而且比 for 循环快很多。

(注意:我说 robust 是指基本的索引方法，而不是防错或类似的方法。它容易受到用户过度索引的影响，因此更有弹性的方法可能包括预索引检查和/或错误捕捉。)

关于r - 哪种提取方法最快？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59117664/

r - 哪种提取方法最快？

上一篇：Erlang spawn 由于某种原因返回 undef

下一篇：jclouds - 新手/芭蕾舞 Actor 在运行构建时出现 gson 问题