hadoop - 分布式处理说明

标签 hadoop grid distributed-computing infinispan terracotta

我有一些想法,但我不知道可以帮助我实现它的典型解决方案。

我需要一个分布式环境,不仅共享内存,而且共享处理,这意味着所有共享处理器都作为一个大处理器工作,计算我编写的代码。

在我对数据网格和 Hadoop 的了解有限的情况下,这是否可以实现?

Data Grid Platform(我知道内存仅在该模型中共享)或 Hadoop(代码在节点之间共享,但每个节点独立于其他节点处理代码,但处理 HDFS 上的数据子集)。

但我需要一个解决方案,它不仅(共享内存或代码作为 hadoop)而且所有机器的处理能力都作为一个单一的大处理器和一个单一的大内存?

最佳答案

您是否希望您只是生成线程并在某处执行,然后中间件奇迹般地平衡节点之间的负载,将线程从一个节点移动到另一个节点?我想你不会直接找到这个。出于充分的理由,标记的框架也没有透明的共享内存。

当使用多个节点时,您通常需要它们来提高处理能力,隐藏所有内容并假装您在一台机器上会导致不必要的通信,从而减慢速度。

相反,您始终可以使用这些框架提供的分发 API 来设计您的应用。例如,在 Infinispan 中,查找 Map-Reduce 或分布式执行程序 API。

关于hadoop - 分布式处理说明,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20856442/

相关文章:

hadoop - 单个 map 中的多种输出格式减少

hadoop - 错误 2103 : doing work on Longs

javascript - Angular Deck Grid 访问 ng-if 中的卡片

html - Sass Susy 画廊 : element that spans two columns

python - tensorflow的slim有分布式版本吗?

hadoop - Ambari - 配置单元 View F080 错误

r - HBase 键值 (NOSQL) 到 Hive 表 (SQL)

ExtJs 如何在ViewModel字段中绑定(bind)网格记录?

distributed-computing - Storm bolt 的状态保存,它进行定期聚合并将聚合结果保存到数据库

apache-spark - 监控 Spark 实际工作时间与通信时间