hadoop - Apache pig : Processing time taken by different operators in a PIG script

标签 hadoop apache-pig operator-keyword

我有一个与计算 PIG 脚本中各种运算符(operator)所用时间有关的问题。例如,我的脚本使用了以下运算符:

加载..
FOREACH..生成..
通过...分组...
FOREACH..生成..
加入...
联盟...

现在,当脚本运行时,它会运行一系列 1 个或多个 MapReduce 作业。现在,如果我想调整脚本的性能,我想知道哪个运算符(operator)花费了很多时间。有没有办法让我检查每个运算符(operator)运行多长时间?

谢谢。

最佳答案

可能您可以查看 Oreilly 的“programming Pig”以了解哪个函数适用于 reduce 阶段,哪些只需要一个 map 阶段。有不同类型的连接,您将了解每个连接需要多少个 MR 阶段。这将帮助你提高你的表现。顺便说一句,你的日志也会给你一些提示。

Job Stats (time in seconds):
JobId   Maps    Reduces MaxMapTime  MinMapTime  AvgMapTime  MedianMapTime   MaxReduceTime   MinReduceTime   AvgReduceTime   MedianReducetime    Alias   Feature Outputs
job_201510052259_0002   1   0   4   4   4   4   0   0   0   0   A,B **MAP_ONLY**    hdfs://localhost:9000/tmp/temp585169456/tmp-938748827,

关于hadoop - Apache pig : Processing time taken by different operators in a PIG script,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32953839/

相关文章:

hadoop - 如何将impala查询输出上传到hdfs “directly”(在impala shell上)?

java - 用于大型文本文件的 Hadoop InputSplit

hadoop - 如何调试FIELD_DISCARDED_TYPE_CONVERSION_FAILED?

apache-pig - pig : positionals counting from right?

pandas - pyspark中的 Pandas cumcount

join - 使用 EMR 连接数据集

hadoop - 在 pig 中创建一个巨大的过滤器

c# - 为什么要重载 true 和 false 而不是定义 bool 运算符?

c++ 运算符必须是非静态成员函数