R 中用于超大型数据集处理和机器学习的推荐包

标签 r machine-learning signal-processing bigdata

看起来 R 确实是为处理可以完全拉入内存的数据集而设计的。建议使用哪些 R 包来对无法拉入内存的超大型数据集进行信号处理和机器学习?

如果 R 完全是错误的方法,我愿意接受其他强大的免费建议(例如 scipy,如果有一些很好的方法来处理非常大的数据集)

最佳答案

查看 high performance computing task view 的“大内存和内存不足数据”小节在克兰上。 bigmemoryff是两个流行的软件包。对于 bigmemory (以及相关的 biganalyticsbigtabulate ), bigmemory website Jay Emerson 提供了一些非常好的演示、小插曲和概述。对于 ff,我建议阅读 Adler Oehlschlägel 和同事关于 ff website 的精彩幻灯片演示。 。

此外,请考虑将数据存储在数据库中并以较小的批量读取进行分析。可能有多种方法可供考虑。首先,请仔细查看 biglm 中的一些示例。包,以及 this presentation来自托马斯·拉姆利。

并调查高性能计算任务 View 上的其他包以及其他答案中提到的。我上面提到的软件包只是我碰巧有更多经验的软件包。

关于R 中用于超大型数据集处理和机器学习的推荐包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11055502/

相关文章:

javascript - 拖放时出现 R Shiny 输入 react 性错误

R: "%in%"的更快版本?

r - 使用igraph,当箭头指向相反方向时如何强制曲率

machine-learning - Caffe : train network accuracy = 1 constant ! 准确性问题

image-processing - 如何从可变数量的图像描述符 (SURF) 创建单个恒定长度特征向量

python - 使用二元、非二元变量的多元线性回归

R:为嵌套数据集编写函数

c++ - C/C++ 中的正向和反向 Gabor 变换库

iphone - 如何在 iPhone 上对 WAV 文件执行 FFT?

matlab - 将输出信号归一化至与输入信号相同的水平