任何基准测试机构都可以测试MapReduce工作流程吗?还是一般的BigData工作流基准测试来测试某些工作流系统(例如Oozie)的性能和准确性?
谢谢
最佳答案
最著名的MapReduce基准可能是Terasort
。它需要大量随机生成的记录,并对整个数据集进行排序。这模拟了一个真正的大规模MapReduce作业,其中既包含映射器,也包含简化器。它包含在MapReduce中,因此您不必单独安装它。
第一步是使用MapReduce lib目录中的MapReduce示例jar使用Teragen
生成输入数据:
hadoop jar hadoop-*examples*.jar teragen <number of 100-byte rows> <output dir>
第二步是对生成的输入数据运行
Terasort
。此步骤花费的时间是基准测试的结果:hadoop jar hadoop-*examples*.jar terasort <input dir> <output dir>
(可选)第三步是使用
Teravalidate
验证输出结果是否正确:$ hadoop jar hadoop-*examples*.jar teravalidate <terasort output dir (= input data)> <teravalidate output dir>
比较该基准从一个群集到另一个群集的时间可能非常困难,但是对于比较同一群集内的更改(例如修改配置或添加新节点)可能很有用。
this blog entry中有
Terasort
的深入描述。
关于hadoop - MapReduce工作流程基准,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22949890/