看起来 R 确实是为处理可以完全拉入内存的数据集而设计的。建议使用哪些 R 包来对无法拉入内存的超大型数据集进行信号处理和机器学习?
如果 R 完全是错误的方法,我愿意接受其他强大的免费建议(例如 scipy,如果有一些很好的方法来处理非常大的数据集)
最佳答案
查看 high performance computing task view 的“大内存和内存不足数据”小节在克兰上。 bigmemory和 ff是两个流行的软件包。对于 bigmemory (以及相关的 biganalytics 和 bigtabulate ), bigmemory website Jay Emerson 提供了一些非常好的演示、小插曲和概述。对于 ff,我建议阅读 Adler Oehlschlägel 和同事关于 ff website 的精彩幻灯片演示。 。
此外,请考虑将数据存储在数据库中并以较小的批量读取进行分析。可能有多种方法可供考虑。首先,请仔细查看 biglm 中的一些示例。包,以及 this presentation来自托马斯·拉姆利。
并调查高性能计算任务 View 上的其他包以及其他答案中提到的。我上面提到的软件包只是我碰巧有更多经验的软件包。
关于R 中用于超大型数据集处理和机器学习的推荐包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11055502/