R 中用于超大型数据集处理和机器学习的推荐包

标签 r machine-learning signal-processing bigdata

已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。

我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便用事实和引文来回答。

已关闭 3 年前。

看起来 R 确实是为处理可以完全拉入内存的数据集而设计的。建议使用哪些 R 包来对无法拉入内存的超大型数据集进行信号处理和机器学习？

如果 R 完全是错误的方法，我愿意接受其他强大的免费建议(例如 scipy，如果有一些很好的方法来处理非常大的数据集)

最佳答案

查看 high performance computing task view 的“大内存和内存不足数据”小节在克兰上。 bigmemory和 ff是两个流行的软件包。对于 bigmemory (以及相关的 biganalytics 和 bigtabulate )， bigmemory website Jay Emerson 提供了一些非常好的演示、小插曲和概述。对于 ff，我建议阅读 Adler Oehlschlägel 和同事关于 ff website 的精彩幻灯片演示。。

此外，请考虑将数据存储在数据库中并以较小的批量读取进行分析。可能有多种方法可供考虑。首先，请仔细查看 biglm 中的一些示例。包，以及 this presentation来自托马斯·拉姆利。

并调查高性能计算任务 View 上的其他包以及其他答案中提到的。我上面提到的软件包只是我碰巧有更多经验的软件包。

关于R 中用于超大型数据集处理和机器学习的推荐包，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11055502/

上一篇：machine-learning - 如何计算线性回归中的正则化参数

下一篇：machine-learning - 为什么要在 SVM 中进行特征缩放？

相关文章：

javascript - 拖放时出现 R Shiny 输入 react 性错误

R: "%in%"的更快版本？

r - 使用igraph，当箭头指向相反方向时如何强制曲率

machine-learning - Caffe : train network accuracy = 1 constant ! 准确性问题

image-processing - 如何从可变数量的图像描述符 (SURF) 创建单个恒定长度特征向量

python - 使用二元、非二元变量的多元线性回归

R:为嵌套数据集编写函数

c++ - C/C++ 中的正向和反向 Gabor 变换库

iphone - 如何在 iPhone 上对 WAV 文件执行 FFT？

matlab - 将输出信号归一化至与输入信号相同的水平