我有一个与计算 PIG 脚本中各种运算符(operator)所用时间有关的问题。例如,我的脚本使用了以下运算符:
加载..
FOREACH..生成..
通过...分组...
FOREACH..生成..
加入...
联盟...
现在,当脚本运行时,它会运行一系列 1 个或多个 MapReduce 作业。现在,如果我想调整脚本的性能,我想知道哪个运算符(operator)花费了很多时间。有没有办法让我检查每个运算符(operator)运行多长时间?
谢谢。
最佳答案
可能您可以查看 Oreilly 的“programming Pig”以了解哪个函数适用于 reduce 阶段,哪些只需要一个 map 阶段。有不同类型的连接,您将了解每个连接需要多少个 MR 阶段。这将帮助你提高你的表现。顺便说一句,你的日志也会给你一些提示。
Job Stats (time in seconds):
JobId Maps Reduces MaxMapTime MinMapTime AvgMapTime MedianMapTime MaxReduceTime MinReduceTime AvgReduceTime MedianReducetime Alias Feature Outputs
job_201510052259_0002 1 0 4 4 4 4 0 0 0 0 A,B **MAP_ONLY** hdfs://localhost:9000/tmp/temp585169456/tmp-938748827,
关于hadoop - Apache pig : Processing time taken by different operators in a PIG script,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32953839/