r - 分块处理数据

标签 r

我有一个包含大约 800 万个观测值和 5 个字符变量的数据集“X” - 称它们为 A、B、C、D 和 E。我正在尝试使用 RecordLinkage 包计算 D 和 E 之间的 jaro-winkler 统计数据:

library(RecordLinkage)
X$jw = jarowinkler(X$D, X$E)

问题是,越来越多的内存不断被耗尽,直到计算机完全死机。有没有什么方法可以自动以“ block ”的形式进行处理,而无需实际手动将 X 预先分割成相当小的尺寸并处理各个子集?

换句话说,是否有任何内置函数可以进行分割和处理,而无需我预先进行?

最佳答案

好吧,最简单的解决方案可能是使用 read.table (或 CSV 或其他)的 nrows 参数。将 nrows 设置为一个较小的值,然后循环遍历各个段,删除不需要的对象并随时调用 gc()

关于r - 分块处理数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7459989/

相关文章:

r - 查找文本中无意义的单词

r - 数据表 : apply different formatStyle to each column

r - 如何在 for 中使用 arrangement?

r - 训练数据中不存在的新因子水平

r - 在一行中将多个对象从字符串转换为数字?

r - y中的错误-ymean : non-numeric argument to binary operator randomForest R

r - 在 R 中使用什么包进行 Kmeans 预测?

r - 向量化插入元素

r - 如何在 knit_child 中使用 envir 参数?

r - 使 R 函数返回锁定/不可变列表