hadoop - Apache PIG-如何显示脚本的执行时间?

标签 hadoop apache-pig hadoop2

是否有可能显示PIG脚本的整个执行时间?
最好的办法是生成一个单独的文件,其中包含执行脚本所需的总时间(例如hh:mm:s)。

请给我一个PIG代码示例以实现此目的。

最佳答案

为您的UDF计时

提高性能和效率的第一步是测量
时间在哪里。 pig 提供了一种轻巧的方法
大致测量花费在不同时间的时间
用户定义的函数(UDF)和加载程序。只需设置
pig.udf.profile属性设置为true。这将导致新的计数器被
跟踪由脚本生成的所有Map-Reduce作业:
roximate_microsecs衡量在
UDF和roximate_invocations测量大约次数
UDF被调用。请注意,这可能会产生大量
计数器(每个UDF两个)。计数器数量过多会导致质量不佳
JobTracker的性能,因此,最好谨慎使用此功能
在测试集群上。

您可以在资源管理器Web UI中查看所有作业计数器。

来自-https://pig.apache.org/docs/r0.11.1/perf.html

关于hadoop - Apache PIG-如何显示脚本的执行时间?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29949625/

相关文章:

hadoop - 如何在 mahout 中使用多输入文件制作 DataModel?

hadoop - Spark Streaming - HBase 批量加载

hadoop - 限制用户在Hive中的数据库中创建表

hadoop - 如何在 Apache PIG 中对日期进行排序?

hadoop - 使用 Pig 在 HBase 中为列族添加可变数量的列

hadoop - 如何编写用于计算节点度和计数的pig脚本

apache-spark - 带有 Spark 1.6.1 Hadoop 2.7.2 的 Google Dataproc 中带有空记录的 Kinesis Stream

java - 在网络应用程序中使用 apache spark 作为缓存

apache - Hadoop 2.x集群节点管理器未在从属节点中启动

hadoop - mapreduce 作业的映射阶段的输出是否总是排序?