hadoop - Hadoop MapReduce映射器任务从HDFS或S3读取输入文件所花费的时间

标签 hadoop mapreduce mapper

我正在运行Hadoop MapReduce作业，正在从HDFS或Amazon S3获取输入文件。我想知道是否有可能知道一个映射器任务从HDFS或S3读取文件到映射器需要多长时间。我想知道仅用于读取数据的时间，不包括那些数据的映射器处理时间。对于特定的映射器任务，我正在寻找的结果约为MB /秒，这表明映射器可以从HDFS或S3中读取的速度。这有点像I / O性能。

谢谢。

最佳答案

也许您可以只使用单元映射器，并将reducer的数量设置为零。这样，在仿真中唯一要做的就是I / O，就不会进行排序和改组。或者，如果您特别希望专注于阅读，则可以使用不写入任何输出的函数来替换单位映射器。
接下来，我将设置mapred.jvm.reuse=-1，以消除jvm的开销。这不是完美的方法，但它可能是拥有快速构想的最简单方法。如果您想精确地做到这一点，我会考虑看看如何实现自己的hadoop计数器，但是目前我还没有经验。

关于hadoop - Hadoop MapReduce映射器任务从HDFS或S3读取输入文件所花费的时间，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20112277/

上一篇：hadoop - prestodb配置单元SQL查询错误

下一篇：hadoop - 将当前日期添加到s3表位置

相关文章：

hadoop - 如何在 Pig 中过滤时间戳

hadoop - 浏览 HDFS 的权限被拒绝

hadoop - Map 输出格式与 hadoop 中的 reduce 输出格式不同

java - Hadoop 2.0 JAR 文件

hadoop - 只有三分之一的数据节点在 Hadoop 中启动？

mysql - 问题 - 将数据从 mysql 导入 HDFS

python - 在此MapReduce问题中，如何选择有选择的值之和大于3？

intellij-idea - 具有2个 Ant 目标的Gradle任务-尝试合并 Ant 目标以加快执行时间

hadoop - Hadoop mapreduce设计/路由映射器和化简器一次完成

java - 在 Spring Batch 中从映射器访问作业参数