r - 在 R 中使用 MNP 包时出现内存泄漏

标签 r memory package limit

在使用 MNP 包时,我有一个关于 R 中内存使用的问题。我的目标是估计多项概率模型,然后使用该模型来预测对大量数据的选择。我已将预测器数据拆分为一个列表。

问题是,当我遍历列表进行预测时,R 使用的内存不断增长,并在达到我计算机的最大内存后使用交换空间。即使达到这些边界,分配的内存也不会释放。即使我没有创建任何其他对象,也会发生这种情况,所以我不明白发生了什么。

下面我粘贴了一个遇到所描述问题的示例代码。运行该示例时,即使删除所有变量并调用 gc() 后,内存也会不断增长并保持使用状态。 .

我拥有的真实数据比示例中生成的数据大得多,因此我需要找到一种解决方法。

我的问题是:

为什么这个脚本使用这么多内存?

如何强制 R 在每一步之后释放分配的内存?

library(MNP)

nr <- 10000
draws <- 500
pieces <- 100

# Create artificial training data
trainingData <- data.frame(y = sample(c(1,2,3), nr, rep = T), x1 = sample(1:nr), x2 = sample(1:nr), x3 = sample(1:nr))

# Create artificial predictor data
predictorData <- list()
for(i in 1:pieces){
    predictorData[[i]] <- data.frame(y = NA, x1 = sample(1:nr), x2 = sample(1:nr), x3 = sample(1:nr))
}

# Estimate multinomial probit
mnp.out <- mnp(y ~ x1 + x2, trainingData, n.draws = draws)

# Predict using predictor data
predicted <- list()
for(i in 1:length(predictorData)){
    cat('|')
    mnp.pred <- predict(mnp.out, predictorData[[i]], type = 'prob')$p
    mnp.pred <- colnames(mnp.pred)[apply(mnp.pred, 1, which.max)]
    predicted[[i]] <- mnp.pred
    rm(mnp.pred)
    gc()
}

# Unite output into one string
predicted <- factor(unlist(predicted))

以下是运行脚本后的输出统计信息:
> rm(list = ls())
> gc()
         used (Mb) gc trigger  (Mb) max used  (Mb)
Ncells 158950  8.5     407500  21.8   407500  21.8
Vcells 142001  1.1   33026373 252.0 61418067 468.6

这是我对 R 的规范:
> sessionInfo()

R version 2.13.1 (2011-07-08)
Platform: x86_64-apple-darwin9.8.0/x86_64 (64-bit)

locale:
[1] en_US.UTF-8/en_US.UTF-8/C/C/en_US.UTF-8/en_US.UTF-8

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] MNP_2.6-2   MASS_7.3-14

最佳答案

结果似乎并不异常,因为我不认为这证明了内存泄漏。我怀疑您误读了来自 gc() 的数据: 右边一列是 R 跟踪内存期间使用的最大内存。如果你使用 gc(reset = TRUE) ,则显示的最大值将是 LHS 中使用的内存,即“已使用”下列出的 8.5MB 和 1.1MB。

我怀疑 MNP 只是在预测阶段消耗了大量内存,所以除了将预测数据分解成更小的块,行数更少之外,没有什么可以做的。

如果您有多个内核,您可以考虑使用 foreach包裹,以及 doSMPdoMC ,因为这将为您提供独立计算的加速以及在循环的每次迭代完成后清除分配的 RAM 的好处(因为它涉及使用单独内存空间的 R 分支,我相信)。

关于r - 在 R 中使用 MNP 包时出现内存泄漏,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7821520/

相关文章:

r - 如何控制显示哪些 facet_wrap 标签

java - 我的包结构正确吗?

sql - 在日期中查找简单的频率模式

r - ggplot2 中两个不同组的不同调色板

php - 每个请求的平均 PHP 内存使用量?

c - 如何在动态内存的情况下处理二维数组,即元素数量在编译时未定义

ubuntu - SDL.h : No such file or directory

jsp中的java包

r - R中segplot中的不同区间颜色

java - -XX :OnOutOfMemoryError doesn't work for java. lang.OutOfMemoryError:无法创建新的 native 线程