我正在寻找为大学计算机网格上的多台计算机发送作品的方法。
目前它正在运行 Condor 并且还提供 Hadoop。
因此,我的问题是,我应该尝试将 R 接口(interface)到 Hadoop 还是接口(interface)到我的项目的 Conder?
为了便于讨论,我们假设我们正在讨论令人尴尬的并行任务。
p.s:我看过 CRAN task views 中描述的资源.
最佳答案
两者都可以。
您可以将 HDFS 用于数据集,将 Condor 用于作业调度。使用 Condor 将执行程序放置在机器上,使用 HDFS + Hadoops Map-Reduce 功能来处理您的数据(假设您的问题是 map-reduce 可映射的)。然后您将使用最适合该工作的工具:Condor 是一个工作调度程序,因此它比 Hadoop 工作得更好。而 Hadoop 的 HDFS 和 M-R 框架是 Condor 所没有的(但对于在 Condor 上运行的作业使用来说确实很有帮助)。
我个人会考虑让 HDFS 在作为 Condor 作业离散运行的作业之间共享数据。特别是在大学环境中,共享计算资源并非 100% 可靠并且可以随意进出,Condor 在此类设置中的弹性将使完成工作变得更加容易。
关于r - 使用 R 时我应该更喜欢 hadoop 还是 condor?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4095664/