performance - hadoop伪分布式操作与独立操作之间的性能比较

标签 performance hadoop distributed

我是hadoop的初学者。但是我有一个有趣的发现。

在hadoop文档中使用the example

通过在“独立操作”和“伪分布式操作”中运行相同的示例,独立操作花费了不到1分钟,而伪分布式操作花费了3分钟以上。这是很大的不同。我可以理解,在分布式模式下还有额外的网络和调度开销。但是差异似乎太大了。这可能不是真正的比较,因为该示例非常简单。

我的问题是,对于实际工作,您在独立模式和分布式模式之间经历了多少差异?

最佳答案

这些是合理不同的方案。在独立模式下,它永远不会启动正确的单节点Hadoop集群。一切都在JVM中本地,内联发生。数据甚至不必潜在地写到磁盘。伪分布式操作是一个本地节点上最小的“真实” Hadoop安装。您必须将数据读/写到本地HDFS实例,产生另一个JVM,等等。所有这些都会增加很多开销。也许开销确实是几分钟。这对我来说似乎完全明智。

关于performance - hadoop伪分布式操作与独立操作之间的性能比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10402625/

相关文章:

hadoop - Hadoop中的公平调度

hadoop - Pig Latin 中的 FOREACH 多个数据

java - 在具有动态响应的大型集群系统上协调共享状态

language-agnostic - 分布式程序员缺少哪些工具?

java - 字符串与字符串缓冲区。 IDEA提示

performance - Hive、hadoop 和 hive.exec.reducers.max 背后的机制

java - 在 onDestroy() 上清空 Fragment 的变量

python - 如何通过 Pandas 数据框的列值加快行选择

hadoop - 在 hadoop 2 (hadoop 2.4.1) 中添加节点

python - 分布式 python