hadoop - MapReduce工作流程基准

标签 hadoop workflow benchmarking bigdata oozie

任何基准测试机构都可以测试MapReduce工作流程吗?还是一般的BigData工作流基准测试来测试某些工作流系统(例如Oozie)的性能和准确性?

谢谢

最佳答案

最著名的MapReduce基准可能是Terasort。它需要大量随机生成的记录,并对整个数据集进行排序。这模拟了一个真正的大规模MapReduce作业,其中既包含映射器,也包含简化器。它包含在MapReduce中,因此您不必单独安装它。

第一步是使用MapReduce lib目录中的MapReduce示例jar使用Teragen生成输入数据:

hadoop jar hadoop-*examples*.jar teragen <number of 100-byte rows> <output dir>

第二步是对生成的输入数据运行Terasort。此步骤花费的时间是基准测试的结果:
hadoop jar hadoop-*examples*.jar terasort <input dir> <output dir>

(可选)第三步是使用Teravalidate验证输出结果是否正确:
$ hadoop jar hadoop-*examples*.jar teravalidate <terasort output dir (= input data)> <teravalidate output dir>

比较该基准从一个群​​集到另一个群集的时间可能非常困难,但是对于比较同一群集内的更改(例如修改配置或添加新节点)可能很有用。

this blog entry中有Terasort的深入描述。

关于hadoop - MapReduce工作流程基准,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22949890/

相关文章:

hadoop - HIVE/HiveQL 获取最大计数

.net - Windows Workflow是否被广泛使用?

benchmarking - Spec2006 源代码变更

c++ - 简单但准确的 C/C++ 代码基准测试

hadoop - 大小为零的输出文件

hadoop - 为什么在一个 Hadoop 作业中只使用 1 个 map 和 1 个 reduce 任务以及 1 个节点?

tfs - 如何在 TFS 中使用转换工作流创建自定义字段

ruby-on-rails - 用于性能基准测试的 Rails gems/工具?

hadoop - 如何在配置单元插入到查询中指定列列表

c++ - 你如何在 C++ 中模块化地构建应用程序