r - R中的大数据内存问题

标签 r performance machine-learning sparse-matrix large-data

我已经在 R 中创建了一个 tdm 矩阵,我想将其写入文件。这是一个简单三元组形式的大型稀疏矩阵,约 20,000 x 10,000。当我将其转换为密集矩阵以通过 cbind 添加列时,出现低内存错误,并且该过程无法完成。我不想增加内存。

另外,我想 - - 将 tf 和 tfidf 矩阵绑定(bind)在一起 - 将稀疏/密集矩阵保存到csv - 运行批处理机器学习算法,例如 weka 的 J48 实现。

如何在内存限制内保存/加载数据集并运行批量机器学习算法?

如果我可以将稀疏矩阵写入数据存储,我可以在 R 中在稀疏矩阵上并在内存限制内运行机器学习算法吗?

最佳答案

可能有多种解决方案:

1) 如果您正在处理整数,请将矩阵从 double 转换为整数。与 double 相比,整数需要更少的内存。

2) 尝试 bigmemory包。

关于r - R中的大数据内存问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21528752/

相关文章:

c++ - 调用空类方法会影响性能吗?

matlab - 从混淆矩阵计算灵敏度和特异性

machine-learning - 如何对不同模型(例如随机森林、GBM、SVM 等)的预测执行线性/逻辑回归?

python - 如何在 marqo 中执行关键字搜索

r - 确定 R 图的右下角

r - 如何扩展 ggplot y 轴限制以包括最大值

r - 在 R 中绘制多个根

mysql 性能 - mysqltuner

Python 分析 - 汇总我的代码之外的函数调用

r - 如何在 R 中创建一个 Matlab 南瓜?