r - 如何为固有嵌套问题构建 R 代码以使其易于阅读?

标签 r mapreduce nested code-readability

有些问题本质上需要多层嵌套才能解决。在当前的项目中,我经常发现自己使用了三个嵌套的 apply s 以便对嵌套列表结构的最深层中包含的元素执行某些操作。

R 的列表处理和 apply -family 允许为此类问题编写非常简洁的代码,但是编写它仍然让我头疼,而且我很确定其他任何人阅读它都必须花几分钟才能理解我在做什么。这是虽然我基本上没有做任何复杂的事情 - 如果不是要遍历多层列表。

下面我提供了一段我编写的代码片段,作为示例。我认为它简洁,但难以阅读。

上下文:我正在编写表面肌电数据的模拟,即可以在人体皮肤上测量并由肌肉事件引起的电位变化。为此,我考虑了几块肌肉(列表的第一层),每个肌肉都由许多所谓的运动单元(列表的第二层)组成,每个单元都与放置在皮肤上的一组电极(列表的第三层)相关.在下面的示例代码中,我们有对象 .firing.contribs ,其中包含有关运动单元的作用对特定电极电位的影响程度的信息,以及 .firing.instants其中包含有关这些运动单元被触发的时刻的信息。然后给定的函数计算每个电极电位的时间过程。

这是问题:有哪些可能的选项可以使读者容易理解这种类型的代码?特别是:我怎样才能更清楚地说明我实际在做什么,即对每个(MU,电极)对执行一些计算,然后总结对每个电极的所有潜在贡献?我觉得这在代码中目前不是很明显。

备注:

  • 我知道plyr。到目前为止,我还没有看到如何使用它来使我的代码更具可读性。
  • 我无法将嵌套列表的结构转换为多维数组,因为每个列表元素的元素数量不同。
  • 我搜索了 MapReduce 算法的 R 实现,因为这似乎适用于我作为示例给出的问题(虽然我不是 MapReduce 专家,所以如果我错了,请纠正我......)。我只找到了大数据处理包,这不是我感兴趣的。无论如何,我的问题不是关于这个特定的(Map-Reducible)案例,而是关于固有嵌套问题的通用编程模式。
  • 我目前对性能不感兴趣,只对可读性感兴趣。

  • 这是示例代码。
    sum.MU.firing.contributions <- function(.firing.contribs, .firing.instants) {
    
        calc.MU.contribs <- function(.MU.firing.contribs, .MU.firing.instants)
            lapply(.MU.firing.contribs, calc.MU.electrode.contrib,
                   .MU.firing.instants)
    
        calc.muscle.contribs <- function(.MU.firing.contribs, .MU.firing.instants) {
    
            MU.contribs <- mapply(calc.MU.contribs, .MU.firing.contribs,
                                  .MU.firing.instants, SIMPLIFY = FALSE)
    
            muscle.contribs <- reduce.contribs(MU.contribs)
        }
    
        muscle.contribs <- mapply(calc.muscle.contribs, .firing.contribs,
                                  .firing.instants, SIMPLIFY = FALSE)
    
        surface.potentials <- reduce.contribs(muscle.contribs)
    }
    
    ## Takes a list (one element per object) of lists (one element per electrode)
    ## that contain the time course of the contributions of that object to the
    ## surface potential at that electrode (as numerical vectors).
    ## Returns a list (one element per electrode) containing the time course of the
    ## contributions of this list of objects to the surface potential at all
    ## electrodes (as numerical vectors again).
    reduce.contribs <- function(obj.list) {
    
        contribs.by.electrode <- lapply(seq_along(obj.list[[1]]), function(i)
                                        sapply(obj.list, `[[`, i))
    
        contribs <- lapply(contribs.by.electrode, rowSums)
    }
    
    
    calc.MU.electrode.contrib <- function(.MU.firing.contrib, .MU.firing.instants) {
    
        ## This will in reality be more complicated since then .MU.firing.contrib
        ## will have a different (more complicated) structure.
        .MU.firing.contrib * .MU.firing.instants
    }
    
    firing.contribs <- list(list(list(1,2),list(3,4)),
                             list(list(5,6),list(7,8),list(9,10)))
    
    firing.instants <- list(list(c(0,0,1,0), c(0,1,0,0)),
                             list(c(0,0,0,0), c(1,0,1,0), c(0,1,1,0)))
    
    surface.potentials <- sum.MU.firing.contributions(firing.contribs, firing.instants)
    

    最佳答案

    正如用户 @alexis_laz 所建议的,实际上不使用嵌套列表结构来表示数据是一个不错的选择,而是使用(平面、二维、非嵌套)data.frame。这大大简化了上述示例的编码并提高了代码的简洁性和可读性,并且似乎也适用于其他情况。

    它完全消除了嵌套 apply 的需要-foo 和复杂的列表遍历。此外,它允许使用许多适用于数据帧的内置 R 功能。

    我认为之前没有考虑这个解决方案的主要原因有两个:

  • 感觉不像我的数据的自然表示,因为数据实际上是嵌套的。通过将数据拟合到 data.frame 中,我们会丢失有关此嵌套的直接信息。不过,它当然可以重建。
  • 它引入了冗余,因为我将在分类列中有很多等效条目。当然,这在任何方面都无关紧要,因为它只是不消耗大量内存或其他东西的索引,但它仍然感觉有点糟糕。

  • 这是重写的示例。评论是最受欢迎的。
    sum.MU.firing.contributions <- function(.firing.contribs, .firing.instants) {
    
        firing.info <- merge(.firing.contribs, .firing.instants)
    
        firing.info$contribs.time <- mapply(calc.MU.electrode.contrib,
                                            firing.info$contrib,
                                            firing.info$instants,
                                            SIMPLIFY = FALSE)
    
        surface.potentials <- by(I(firing.info$contribs.time),
                                 factor(firing.info$electrode),
                                 function(list) colSums(do.call(rbind, list)))
    
        surface.potentials
    }
    
    
    calc.MU.electrode.contrib <- function(.MU.firing.contrib, .MU.firing.instants) {
    
        ## This will in reality be more complicated since then .MU.firing.contrib
        ## will have a different (more complicated) structure.
        .MU.firing.contrib * .MU.firing.instants
    }
    
    
    firing.instants <- data.frame(muscle = c(1,1,2,2,2),
                                  MU = c(1,2,1,2,3),
                                  instants = I(list(c(F,F,T,F),c(F,T,F,F),
                                      c(F,F,F,F),c(T,F,T,F),c(F,T,T,F))))
    
    firing.contribs <- data.frame(muscle = c(1,1,1,1,2,2,2,2,2,2),
                                  MU = c(1,1,2,2,1,1,2,2,3,3),
                                  electrode = c(1,2,1,2,1,2,1,2,1,2),
                                  contrib = c(1,2,3,4,5,6,7,8,9,10))
    
    surface.potentials <- sum.MU.firing.contributions(firing.contribs,
                                                      firing.instants)
    

    关于r - 如何为固有嵌套问题构建 R 代码以使其易于阅读?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24578702/

    相关文章:

    r - Shiny 仪表板plus : how to add box without a title?

    r - 使用变量 block 旋转更长的时间

    r - 如何从 rvest 中的元素中抓取 id?

    spring batch Hadoop 失败并出现 org.springframework.beans.factory.BeanNotOfRequiredTypeException

    javascript,来自json的嵌套导航栏

    r - 如何使用 utils::globalVariables

    multithreading - 多核服务器上的 mongodb map reduce

    hadoop - Amazon EMR:在S3中找到 “no output”

    javascript - 从嵌套对象分配变量

    javascript - Angular 6 - 多级嵌套响应式表单重复输入