hadoop - Hadoop性能基准

标签 hadoop hdfs

我想知道有关某种Hadoop集群配置的数据收集的“标准”方法是什么,也就是说,获得有关某集群配置运行速度如何(例如吞吐量,带宽和)的具体证据,我应该考虑使用。我目前正在研究并试图了解TestDFSIO,但是我不禁认为这并没有完全分析Hadoop性能(我读过的地方它并没有考虑到某些开销)。

如果有帮助,我当前的hadoop集群设置是2台服务器,其中KVM置于其上,一台具有2个VM,另一台具有1个VM。我想将此配置的性能与更简单的hadoop配置(不带KVM或VM)进行比较。

最佳答案

还有其他基准测试,特别是TeraSort,可以衡量您的集群改组性能,但是我不会告诉他们它们提供的信息太多。
恕我直言,分析hadoop集群有点像对JVM进行分析-没有具体的应用程序就没有多大意义。 。
我想告诉您的是,Hadoop集群的性能应与您将要在其上运行的某些MR工作相关地进行评估。有些作业将受IO限制,而其余的系统性能将不相关。有些将在Map Stage中受CPU约束,其余的并不重要,依此类推。

关于hadoop - Hadoop性能基准,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11940002/

相关文章:

hadoop - Apache Spark数据建模-我是否更希望使用非规范化或联接来提高查询性能?

java - 使用java api将数据 append 到hadoop中的文件

java - 如何根据 Spark 中的日期时间值过滤数据集

java - HDFS - 设置竞争条件

dataframe - 删除HDFS文件中的数据并调整Spark

java - HADOOP wordcount程序

hadoop - 通过 teradata 连接时出现 Sqoop 错误

xml - 在单节点模式下设置 hadoop 时出现问题。

hadoop - 解压缩文件,然后上传到HDFS

hadoop - hadoop集群的系统测试自动化框架