hadoop - Pig 程序无缘无故地卡在一个阶段

标签 hadoop mapreduce apache-pig bigdata

我正在处理大小为 400 MB 的数据，该脚本有 5 个不同的部分和 5 个存储命令，如果我一次只切换一个存储命令评论所有其他命令， pig 脚本会非常有效。但如果所有 5 个存储命令都打开，作业浏览器 (hue) 会卡在任何特定阶段，然后它只会继续重新尝试作业而没有任何进展。没有错误，日志也没有错误和警告。

我认识到的问题可能是由于环境问题造成的，因为该脚本也曾与 -M 属性一起正常工作，但另一次却失败了。

最佳答案

如果每个STORE数据都依赖于之前的STORE，那么你可以在每个STORE之后使用exec命令。这将确保您的 STORE 命令在下一组命令/STORE 之前完全执行。

A = ...
STORE A;
exec;
B = FOREACH A GENERATE ...

关于hadoop - Pig 程序无缘无故地卡在一个阶段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37347886/

上一篇：hadoop - 为什么有时mapreduce Average Reduce Time 是负数？

下一篇：hadoop - Flume 内存 channel 在启动时已满

相关文章：

hadoop - hadoop map task 超时

hadoop - 在 hadoop 中调试数据节点

hadoop - 在hive(hadoop)中添加文件后，在仓库中不可见？

java - Hadoop 完全跳过缩减阶段

java - 如何在单独的Java程序中读取pig输出

hive - 从 Pig 保存到 Hive 表的问题

bash - 将参数从 shell 脚本传递到 hive 脚本

java - 具有重写的fileInputFormat的MapReduce无法输出结果

由于来自 inputStream 的过早 EOF，Hadoop MapReduce 作业 I/O 异常

session - session 化的Web日志，获取上一个和下一个域