我想知道有关某种Hadoop集群配置的数据收集的“标准”方法是什么,也就是说,获得有关某集群配置运行速度如何(例如吞吐量,带宽和)的具体证据,我应该考虑使用。我目前正在研究并试图了解TestDFSIO,但是我不禁认为这并没有完全分析Hadoop性能(我读过的地方它并没有考虑到某些开销)。
如果有帮助,我当前的hadoop集群设置是2台服务器,其中KVM置于其上,一台具有2个VM,另一台具有1个VM。我想将此配置的性能与更简单的hadoop配置(不带KVM或VM)进行比较。
最佳答案
还有其他基准测试,特别是TeraSort,可以衡量您的集群改组性能,但是我不会告诉他们它们提供的信息太多。
恕我直言,分析hadoop集群有点像对JVM进行分析-没有具体的应用程序就没有多大意义。 。
我想告诉您的是,Hadoop集群的性能应与您将要在其上运行的某些MR工作相关地进行评估。有些作业将受IO限制,而其余的系统性能将不相关。有些将在Map Stage中受CPU约束,其余的并不重要,依此类推。
关于hadoop - Hadoop性能基准,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11940002/