hadoop - Apache pig : Processing time taken by different operators in a PIG script

标签 hadoop apache-pig operator-keyword

我有一个与计算 PIG 脚本中各种运算符(operator)所用时间有关的问题。例如，我的脚本使用了以下运算符:

加载..
FOREACH..生成..
通过...分组...
FOREACH..生成..
加入...
联盟...

现在，当脚本运行时，它会运行一系列 1 个或多个 MapReduce 作业。现在，如果我想调整脚本的性能，我想知道哪个运算符(operator)花费了很多时间。有没有办法让我检查每个运算符(operator)运行多长时间？

谢谢。

最佳答案

可能您可以查看 Oreilly 的“programming Pig”以了解哪个函数适用于 reduce 阶段，哪些只需要一个 map 阶段。有不同类型的连接，您将了解每个连接需要多少个 MR 阶段。这将帮助你提高你的表现。顺便说一句，你的日志也会给你一些提示。

Job Stats (time in seconds):
JobId   Maps    Reduces MaxMapTime  MinMapTime  AvgMapTime  MedianMapTime   MaxReduceTime   MinReduceTime   AvgReduceTime   MedianReducetime    Alias   Feature Outputs
job_201510052259_0002   1   0   4   4   4   4   0   0   0   0   A,B **MAP_ONLY**    hdfs://localhost:9000/tmp/temp585169456/tmp-938748827,

关于hadoop - Apache pig : Processing time taken by different operators in a PIG script，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32953839/

上一篇：hadoop - 在Eclipse上设置并运行WordCount Hadoop 1.2.1

下一篇：hadoop - 我想在pentaho工作

java - 用于大型文本文件的 Hadoop InputSplit

hadoop - 如何调试FIELD_DISCARDED_TYPE_CONVERSION_FAILED？

apache-pig - pig : positionals counting from right?

pandas - pyspark中的 Pandas cumcount

join - 使用 EMR 连接数据集

hadoop - 在 pig 中创建一个巨大的过滤器

c# - 为什么要重载 true 和 false 而不是定义 bool 运算符？

c++ 运算符必须是非静态成员函数