我正在寻找可以在分布式计算环境中管理大规模工作流的开源资源管理器。 我对 TORQUE、SLURM、LOADLEVELER 进行了调查,SLURM 在处理大型节点方面优于 TORQUE,但在单个集群中。全部用于批处理系统。 Condor 用于网格环境,但提供粗粒度的分布式并行化。 我觉得 Ganglia 和 Nagios 在高性能计算环境中表现不错。但我想知道 Ganglia 和 Nagios 是否可以用于 Workflows?可以将我的调度算法嵌入到调度程序中,并通过 Hadoop MapReduce 框架将其与资源管理器一起使用吗? 有帮助的回复更受欢迎。 谢谢。
最佳答案
Ganglia和Nagios是监控工具,不会给你资源管理。查看最新的 Hadoop。它在内部附带资源管理。
The new ResourceManager manages the global assignment of compute resources to applications and the per-application ApplicationMaster manages the application’s scheduling and coordination.
关于hadoop - 资源管理器处理跨异构系统的大规模工作流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8485138/