hadoop - 在集群中分布单个进程的最佳方法

标签 hadoop cluster-computing akka grid-computing condor

我是集群计算的新手,并且想了解更多有关集群计算所使用的各种软件的信息,这对于特定的任务是最好的。特别是,我要解决的问题涉及一个Manager / Workers类型的场景,其中一个Manager负责创建100至1000的工作。每个作业虽然相对较大,但必须逐帧执行。即经理将告诉每个工作“提前一帧并报告给我”。单个帧的执行将非常小,因此Manager和辅助计算机之间的延迟必须非常小,大约为微秒。

谢谢!任何信息都将不胜感激,即使是与我描述的情况都不完全相符的信息,也只是为了作为起点。到目前为止,我已经研究了Hadoop,HTCondor和Akka。

最佳答案

由于通信延迟对您很重要,因此您可能应该考虑使用MPI。使用MPI编写简单的Master / Worker程序并不是很困难,它可能会为您提供最佳性能,尤其是在您的集群具有高性能网络(例如infiniband)的情况下。

如果您似乎正在使用Java,则必须进行一些研究才能确定一个好的Java / MPI包。您会在这里找到一些建议:Java openmpi

关于hadoop - 在集群中分布单个进程的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18217548/

相关文章:

hadoop - Apache Kylin 无法找到 HBase 公共(public)库

hadoop - 如何通过ambari将Hadoop Log Dir前缀从/var/log/hadoop更改为/home/hadoop/log/hadoop

java - Eclipse Hadoop HDFS 异常

java - Akka 应用程序的全局唯一消息标识符

java - Akka 身份验证设计(有限状态机)

hadoop - CDH5 hdfs 平衡器错误

java - 如何在集群上使用 JVM 程序? (比如停产的 cJVM/JavaSplit)

docker - 在 Hetzner Cloud 上设置 Docker Swarm,通过其公共(public) IP 地址在 Docker 节点之间路由流量是否安全?

java - 集群中的spring boot应用程序

scala - Akka actorSelection 失败后重新连接