r - 使用 R 时我应该更喜欢 hadoop 还是 condor？

我正在寻找为大学计算机网格上的多台计算机发送作品的方法。

目前它正在运行 Condor 并且还提供 Hadoop。

因此，我的问题是，我应该尝试将 R 接口(interface)到 Hadoop 还是接口(interface)到我的项目的 Conder？

为了便于讨论，我们假设我们正在讨论令人尴尬的并行任务。

p.s:我看过 CRAN task views 中描述的资源.

最佳答案

两者都可以。

您可以将 HDFS 用于数据集，将 Condor 用于作业调度。使用 Condor 将执行程序放置在机器上，使用 HDFS + Hadoops Map-Reduce 功能来处理您的数据(假设您的问题是 map-reduce 可映射的)。然后您将使用最适合该工作的工具:Condor 是一个工作调度程序，因此它比 Hadoop 工作得更好。而 Hadoop 的 HDFS 和 M-R 框架是 Condor 所没有的(但对于在 Condor 上运行的作业使用来说确实很有帮助)。

我个人会考虑让 HDFS 在作为 Condor 作业离散运行的作业之间共享数据。特别是在大学环境中，共享计算资源并非 100% 可靠并且可以随意进出，Condor 在此类设置中的弹性将使完成工作变得更加容易。

关于r - 使用 R 时我应该更喜欢 hadoop 还是 condor？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4095664/

上一篇：java - 在 hadoop 中运行多个 MapReduce 作业

下一篇：hadoop - 使用零 Reducers 时，我能否从 Hadoop 获得单独排序的 Mapper 输出？

python - 在 HTCondor 中导入本地 python 模块

r - 使用 R 从谷歌学者那里提取论文的引文

r - 在 R 中并行计算时更改内核数

r - ggplot 标题是否可以包含换行符(与 ggtext 一起使用时)？

R Packrat 无法加载私有(private)库

hadoop - HDFS 错误 + 不完整的 HDFS URI，没有主机 : hdfs://l27. 0.0.1:9000

xml - 在Windows上安装Hadoop时出错

io - Win7 上的秃鹰 : connection issue (Errno 10054)

docker - [HTCONDOR][kubernetes/k8s] : Unable to start minicondor image within k8s - condor_master not working