我正在处理大小为 400 MB 的数据,该脚本有 5 个不同的部分和 5 个存储命令,如果我一次只切换一个存储命令评论所有其他命令, pig 脚本会非常有效。 但如果所有 5 个存储命令都打开,作业浏览器 (hue) 会卡在任何特定阶段,然后它只会继续重新尝试作业而没有任何进展。 没有错误,日志也没有错误和警告。
我认识到的问题可能是由于环境问题造成的,因为该脚本也曾与 -M 属性一起正常工作,但另一次却失败了。
最佳答案
如果每个STORE数据都依赖于之前的STORE,那么你可以在每个STORE之后使用exec命令。这将确保您的 STORE 命令在下一组命令/STORE 之前完全执行。
A = ...
STORE A;
exec;
B = FOREACH A GENERATE ...
关于hadoop - Pig 程序无缘无故地卡在一个阶段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37347886/