r - 哪种提取方法最快?

标签 r

给定列表

li = list(a = list(b = list(1:3)))

以下提取方法给出相同的结果:

li[["a"]][["b"]][[1]][[2]]
[1] 2

purrr::pluck(li, "a", "b", 1, 2)
[1] 2

for (i in list("a", "b", 1, 2)) li = `[[`(li, i)
li
[1] 2

purrr::pluckfor 具有明显的优势,即可以通过编程方式构建嵌套索引向量。在以下方面比较它们时有什么需要考虑的吗:

  • 性能(例如,“链式”[[ 方法与 for 方法有显着不同/更快吗?)
  • 一种方法可能会提供与其他方法不同的结果的边缘情况

最佳答案

虽然我不明白你问“哪种方法最快”“不仅是执行速度”是什么意思。如果您指的是渐近性能,那么也许我们可以稍微扩大列表以进行测试。 (如果你指的是代码优雅、惯用性或其他什么,那么这可能不是最明确的问题。)

我有第四个建议:

Reduce(`[[`, list('a','b',1L,2L), init=li)

性能比较:

microbenchmark::microbenchmark(
  base = li[["a"]][["b"]][[1]][[2]],
  purrr = purrr::pluck(li, "a", "b", 1, 2),
  "for" = { li0 <- li; for (i in list("a", "b", 1, 2)) li0 = `[[`(li0, i)}, 
  reduce = Reduce(`[[`, list('a', 'b', 1L, 2L), init=li)
)
# Unit: microseconds
#    expr    min      lq     mean  median      uq    max neval
#    base    1.5    2.65    3.747    3.60    4.95    8.9   100
#   purrr   33.9   62.00   73.727   67.70   91.90  159.1   100
#     for 2716.7 3465.65 4671.615 5120.05 5353.00 6090.2   100
#  reduce    9.6   18.60   23.519   21.50   28.10   73.5   100

让我们尝试使用更大的列表:

gargantuan <- setNames(1:2600, paste0(rep(LETTERS, times=100), rep(1:100, each=26)))
li = c(gargantuan, list(a = c(gargantuan, list(b = list(1:3)))))
li[["a"]][["b"]][[1]][[2]]
# [1] 2
### other tests confirm the results are identical

# Unit: microseconds
#    expr    min      lq     mean  median      uq    max neval
#    base   35.8   74.85  132.272  142.85  194.35  211.4   100
#   purrr  102.2  210.60  313.105  354.00  396.80  519.4   100
#     for 2151.8 3082.55 4338.619 4744.00 5354.95 5841.4   100
#  reduce   40.8   94.00  160.764  177.80  223.45  239.5   100

这表明 Reduce 解决方案仅被文字/常量基础版本打败,并且对于Reducepurrr::pluck 快一点,而且比 for 循环快很多。

(注意:我说 robust 是指基本的索引方法,而不是防错或类似的方法。它容易受到用户过度索引的影响,因此更有弹性的方法可能包括预索引检查和/或错误捕捉。)

关于r - 哪种提取方法最快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59117664/

相关文章:

r - viridis ggplot2 颜色包不会安装,即使依赖项 = TRUE

r - 并行代码导致线程中内存使用量增加(RStudio 缺陷)

r - 在R中使用非英文名称处理文件

javascript - R 使用JavaScript自定义DT表

r - 扩展 R 的汇总函数(或创建具有类似输出的新函数)以将因子显示为总数的百分比

r - 按日期发生的累计总和

r - 从 RMarkdown 代码块生成 Latex 代码

R计算每行出现的次数非常慢

r - 时间序列直方图

r - 在 ggplot 中使用四个图在图表下方添加标题