我是hadoop的初学者。但是我有一个有趣的发现。
在hadoop文档中使用the example,
通过在“独立操作”和“伪分布式操作”中运行相同的示例,独立操作花费了不到1分钟,而伪分布式操作花费了3分钟以上。这是很大的不同。我可以理解,在分布式模式下还有额外的网络和调度开销。但是差异似乎太大了。这可能不是真正的比较,因为该示例非常简单。
我的问题是,对于实际工作,您在独立模式和分布式模式之间经历了多少差异?
最佳答案
这些是合理不同的方案。在独立模式下,它永远不会启动正确的单节点Hadoop集群。一切都在JVM中本地,内联发生。数据甚至不必潜在地写到磁盘。伪分布式操作是一个本地节点上最小的“真实” Hadoop安装。您必须将数据读/写到本地HDFS实例,产生另一个JVM,等等。所有这些都会增加很多开销。也许开销确实是几分钟。这对我来说似乎完全明智。
关于performance - hadoop伪分布式操作与独立操作之间的性能比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10402625/