r - 在Hadoop服务器上分配R处理

标签 r hadoop apache-spark parallel-processing distributed-computing

我目前有一个在本地运行的R代码。它由一个我已经使用％dopar％函数成功并行化的foreach部分组成。我希望将此循环从单个CPU上的并行化转换为Hadoop服务器上的分发。

有人可以建议我采用合适的方法以及应该使用哪些软件包？

附加信息:我的Hadoop设置是Hortonworks HDP，而我的foreach循环令人尴尬地是并行的。我希望从本地并行化过渡到集群分布以提高速度。仅需要在群集上完成计算/处理(我的数据是本地数据-不在群集上)。

最佳答案

没有一个旨在使用Hadoop的foreach后端。您可以使用doSNOW，doParallel和doMPI在集群的多个节点上执行foreach，但是它们需要ssh或MPI / mpirun才能在远程节点上启动工作程序。我不确定Hadoop会如何发挥作用。

有许多可与Hadoop一起使用的R软件包(RHIPE，RHadoop)，但是我不知道要转换R代码以使用它们需要进行多少工作。

关于r - 在Hadoop服务器上分配R处理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43221625/

上一篇：mysql - 如何将使用 docker 创建的 MySQL 连接到另一个端口(不是端口 3306)？

下一篇：ruby-on-rails - 如何使用Rails连接到PostgreSQL容器

相关文章：

r - 按照一定的规则调整向量子集值

r - 如何在ubuntu上安装R的i386版本？

java - 线程 "main"java.lang.ClassNotFoundException : tn. hadoop.WordCount 中的异常

eclipse - 使用 scala 将 spark 作业从 eclipse 提交到 yarn-client

python - 作业完成后 spark-submit 继续挂起

python-3.x - py4JJava 错误 - 使用 select 语句时出错

r - 如何使用同一个 R 包的多个版本？

string - 如何确定重音编码？

python - 在 hadoop 中将附加文件附加到 python 流作业

apache-spark - 'pyspark.sql.functions.window' 函数的 'startTime' 参数有什么作用？