r - 识别 R 函数和脚本的依赖关系

标签 r dependencies code-analysis

我正在筛选一个包和使用该包的脚本,并希望识别外部依赖项。目标是修改脚本以指定library(pkgName),并修改包中的函数以使用require(pkgName),以便这些依赖关系稍后会更加明显。

我正在修改代码以考虑每个外部依赖包。举个例子,尽管它绝不是确定的,但我现在发现很难识别依赖于 data.table 的代码。我可以将 data.table 替换为 Matrixggplot2bigmemoryplyr、或许多其他软件包,因此请随意回答基于其他软件包的示例。

这个搜索并不是特别容易。到目前为止我尝试过的方法包括:

  • 在代码中搜索 libraryrequire 语句
  • 搜索提及 data.table(例如 library(data.table))
  • 尝试运行 codetools::checkUsage 以确定可能存在问题的位置。对于脚本,我的程序将脚本插入到本地函数中,并将 checkUsage 应用于该函数。否则,我使用 checkUsagePackage 作为包。
  • 查找 data.table 所特有的语句,例如 :=
  • 查找可以通过匈牙利表示法标识对象类的位置,例如 DT

我搜索的本质是找到:

  • 加载data.table
  • 名称表明它们是 data.table 对象的对象,
  • 似乎是 data.table 特定的方法

唯一简单的部分似乎是找到包的加载位置。不幸的是,并非所有函数都可以显式加载或需要外部包 - 这些函数可能假设它已经被加载。这是一个不好的做法,我正在努力解决它。然而,搜索对象和方法似乎具有挑战性。

这个(data.table)只是一个包,而且它的用途似乎有限且有些独特。假设我想寻找 ggplot 函数的用途,其中选项更广泛,并且语法文本不那么特殊(即频繁使用 + 并不特殊,而 : = 似乎是)。

我认为静态分析不会给出完美的答案,例如可以将参数传递给函数,该函数指定要加载的包。尽管如此:是否有任何核心工具或软件包可以通过静态或动态分析来改进这种强力方法?

就其值(value)而言,tools::pkgDepends 仅解决包级别的依赖关系,而不是函数或脚本级别的依赖关系,而这正是我正在工作的级别。

<小时/>

更新 1:应该起作用的动态分析工具的一个示例是报告在代码执行期间加载了哪些包的工具。不过,我不知道 R 中是否存在这样的功能 - 它就像 Rprof 报告 search() 的输出而不是代码堆栈。

最佳答案

首先,感谢 @mathematical.coffee 让我走上了使用 Mark Bravington 的 mvbutils 包的道路。 foodweb 功能非常令人满意。

回顾一下,我想了解如何检查一个包(例如 myPackage)与另一个包(例如 externalPackage),以及如何根据 externalPackage 检查脚本.我将演示如何进行每一项操作。在本例中,外部包是 data.table

1:对于 myPackagedata.table,以下命令就足够了:

library(mvbutils)
library(myPackage)
library(data.table)
ixWhere <- match(c("myPackage","data.table"), search())
foodweb(where = ixWhere, prune = ls("package:data.table"), descendents = FALSE)

这会生成一个出色的图表,显示哪些函数依赖于 data.table 中的函数。尽管该图包含 data.table 内的依赖项,但它并不太繁重:我可以轻松查看哪些函数依赖于 data.table 以及它们使用哪些函数,例如如 as.data.tabledata.table:=key 等。至此,我们可以说包依赖问题已经解决,但是 foodweb 提供了更多功能,所以让我们看一下。最酷的部分是依赖矩阵。

depMat  <- foodweb(where = ixWhere, prune = ls("package:data.table"), descendents = FALSE, plotting = FALSE)
ix_sel  <- grep("^myPackage.",rownames(depMat))
depMat  <- depMat[ix_sel,]
depMat  <- depMat[,-ix_sel]
ix_drop <- which(colSums(depMat) == 0)
depMat  <- depMat[,-ix_drop]
ix_drop <- which(rowSums(depMat) == 0)
depMat  <- depMat[-ix_drop,]

这很酷:它现在显示了我的包中函数的依赖关系,我在其中使用了详细的名称,例如myPackage.cleanData,在函数上不 在我的包中,即 data.table 中的函数,它消除了没有依赖关系的行和列。这很简洁,让我可以快速调查依赖关系,并且通过处理 rownames(depMat),我也可以很容易地找到我的函数的补充集。

注意:plotting = FALSE 似乎并没有阻止创建绘图设备,至少在一系列调用中第一次调用 foodweb 时是这样。这很烦人,但并不可怕。也许我做错了什么。

2:对于脚本与data.table,这会变得更有趣。对于每个脚本,我需要创建一个临时函数,然后检查依赖关系。我下面有一个小函数可以做到这一点。

listFiles <- dir(pattern = "myScript*.r")
checkScriptDependencies <- function(fname){
    require(mvbutils)
    rawCode  <- readLines(fname)
    toParse  <- paste("localFunc <- function(){", paste(rawCode, sep = "\n", collapse = "\n"), "}", sep = "\n", collapse = "")
    newFunc  <- eval(parse(text = toParse))
    ix       <- match("data.table",search())
    vecPrune <- c("localFunc", ls("package:data.table"))
    tmpRes   <- foodweb(where = c(environment(),ix), prune = vecPrune, plotting = FALSE)
    tmpMat   <- tmpRes$funmat
    tmpVec   <- tmpMat["localFunc",]
    return(tmpVec)
}

listDeps <- list()
for(selFile in listFiles){
    listDeps[[selFile]] <- checkScriptDependencies(selFile)
}

现在,我只需要查看 listDeps,我就可以得到与上面的 depMat 相同的精彩小见解。我从我编写的发送脚本以供 codetools::checkUsage 分析的其他代码中修改了 checkScriptDependency;有一个像这样的小函数来分析独立代码是很好的。感谢@Spacedman@Tommy使用 environment() 改进对 foodweb 的调用。

(真正的匈牙利人会注意到我与名称和类型的顺序不一致 - 太糟糕了。:) 这样做有一个更长的原因,但这并不完全是我正在使用的代码。)

<小时/>

虽然我还没有发布 foodweb 为我的代码生成的图表图片,但您可以在 http://web.archive.org/web/20120413190726/http://www.sigmafield.org/2010/09/21/r-function-of-the-day-foodweb 上看到一些很好的示例。 。就我而言,它的输出肯定捕获了 data.table 对 :=J 的使用,以及标准命名函数,例如 keyas.data.table。它似乎消除了我的文本搜索,并且在多个方面都有所改进(例如查找我忽略的功能)。

总而言之,foodweb 是一个出色的工具,我鼓励其他人探索 mvbutils 软件包以及 Mark Bravington 的其他一些不错的软件包,例如 调试。如果您安装了 mvbutils,如果您认为只有您在管理不断发展的 R 代码方面遇到困难,只需查看 ?changed.funs 即可。 :)

关于r - 识别 R 函数和脚本的依赖关系,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8761857/

相关文章:

dependencies - 安装 libgtk-3-dev,未满足的依赖项

dependencies - Unresolved 依赖关系 org.apache.spark#spark-network-common_2.10 在构建 spark 1.2.0 时

java - 按 build.xml 依赖项拆分 Java 项目

C源分析

r - 在centos的HOME目录中安装R 3.3.2

r - 如何使用 R 在法语中准确应用停用词

r - 如何在 R 中创建缺少值的曲面图?

R - 基于重复序列的子数据帧

c# - 使用 Roslyn 获取 .cs 以外的文件

.net - 退出痛苦地带 - NDepend