hadoop - Hadoop MapReduce映射器任务从HDFS或S3读取输入文件所花费的时间

标签 hadoop mapreduce mapper

我正在运行Hadoop MapReduce作业,正在从HDFS或Amazon S3获取输入文件。我想知道是否有可能知道一个映射器任务从HDFS或S3读取文件到映射器需要多长时间。我想知道仅用于读取数据的时间,不包括那些数据的映射器处理时间。对于特定的映射器任务,我正在寻找的结果约为MB /秒,这表明映射器可以从HDFS或S3中读取的速度。这有点像I / O性能。

谢谢。

最佳答案

也许您可以只使用单元映射器,并将reducer的数量设置为零。这样,在仿真中唯一要做的就是I / O,就不会进行排序和改组。或者,如果您特别希望专注于阅读,则可以使用不写入任何输出的函数来替换单位映射器。
接下来,我将设置mapred.jvm.reuse=-1,以消除jvm的开销。这不是完美的方法,但它可能是拥有快速构想的最简单方法。如果您想精确地做到这一点,我会考虑看看如何实现自己的hadoop计数器,但是目前我还没有经验。

关于hadoop - Hadoop MapReduce映射器任务从HDFS或S3读取输入文件所花费的时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20112277/

相关文章:

hadoop - 如何在 Pig 中过滤时间戳

hadoop - 浏览 HDFS 的权限被拒绝

hadoop - Map 输出格式与 hadoop 中的 reduce 输出格式不同

java - Hadoop 2.0 JAR 文件

hadoop - 只有三分之一的数据节点在 Hadoop 中启动?

mysql - 问题 - 将数据从 mysql 导入 HDFS

python - 在此MapReduce问题中,如何选择有选择的值之和大于3?

intellij-idea - 具有2个 Ant 目标的Gradle任务-尝试合并 Ant 目标以加快执行时间

hadoop - Hadoop mapreduce设计/路由映射器和化简器一次完成

java - 在 Spring Batch 中从映射器访问作业参数