hadoop - Pig 程序无缘无故地卡在一个阶段

标签 hadoop mapreduce apache-pig bigdata

我正在处理大小为 400 MB 的数据,该脚本有 5 个不同的部分和 5 个存储命令,如果我一次只切换一个存储命令评论所有其他命令, pig 脚本会非常有效。 但如果所有 5 个存储命令都打开,作业浏览器 (hue) 会卡在任何特定阶段,然后它只会继续重新尝试作业而没有任何进展。 没有错误,日志也没有错误和警告。

我认识到的问题可能是由于环境问题造成的,因为该脚本也曾与 -M 属性一起正常工作,但另一次却失败了。

最佳答案

如果每个STORE数据都依赖于之前的STORE,那么你可以在每个STORE之后使用exec命令。这将确保您的 STORE 命令在下一组命令/STORE 之前完全执行。

A = ...
STORE A;
exec;
B = FOREACH A GENERATE ...

关于hadoop - Pig 程序无缘无故地卡在一个阶段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37347886/

相关文章:

hadoop - hadoop map task 超时

hadoop - 在 hadoop 中调试数据节点

hadoop - 在hive(hadoop)中添加文件后,在仓库中不可见?

java - Hadoop 完全跳过缩减阶段

java - 如何在单独的Java程序中读取pig输出

hive - 从 Pig 保存到 Hive 表的问题

bash - 将参数从 shell 脚本传递到 hive 脚本

java - 具有重写的fileInputFormat的MapReduce无法输出结果

由于来自 inputStream 的过早 EOF,Hadoop MapReduce 作业 I/O 异常

session - session 化的Web日志,获取上一个和下一个域