performance - hadoop伪分布式操作与独立操作之间的性能比较

标签 performance hadoop distributed

我是hadoop的初学者。但是我有一个有趣的发现。

在hadoop文档中使用the example，

通过在“独立操作”和“伪分布式操作”中运行相同的示例，独立操作花费了不到1分钟，而伪分布式操作花费了3分钟以上。这是很大的不同。我可以理解，在分布式模式下还有额外的网络和调度开销。但是差异似乎太大了。这可能不是真正的比较，因为该示例非常简单。

我的问题是，对于实际工作，您在独立模式和分布式模式之间经历了多少差异？

最佳答案

这些是合理不同的方案。在独立模式下，它永远不会启动正确的单节点Hadoop集群。一切都在JVM中本地，内联发生。数据甚至不必潜在地写到磁盘。伪分布式操作是一个本地节点上最小的“真实” Hadoop安装。您必须将数据读/写到本地HDFS实例，产生另一个JVM，等等。所有这些都会增加很多开销。也许开销确实是几分钟。这对我来说似乎完全明智。

关于performance - hadoop伪分布式操作与独立操作之间的性能比较，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10402625/

上一篇：bash - 从Shell脚本将结果值从Docker容器中的测试返回到Jenkins CI

下一篇：docker - Mac版Docker-极慢的请求时间

相关文章：

hadoop - Hadoop中的公平调度

hadoop - Pig Latin 中的 FOREACH 多个数据

java - 在具有动态响应的大型集群系统上协调共享状态

language-agnostic - 分布式程序员缺少哪些工具？

java - 字符串与字符串缓冲区。 IDEA提示

performance - Hive、hadoop 和 hive.exec.reducers.max 背后的机制

java - 在 onDestroy() 上清空 Fragment 的变量

python - 如何通过 Pandas 数据框的列值加快行选择

hadoop - 在 hadoop 2 (hadoop 2.4.1) 中添加节点

python - 分布式 python