我一直在从事一个包含配置单元查询的项目。
INSERT INTO OVERWRITE .... TRANSFORM (....) USING 'python script.py' FROM .... LEFT OUTER JOIN . . . LEFT OUTER JOIN . . . LEFT OUTER JOIN
一开始一切正常,直到我们加载了大量的虚拟数据。我们只是在某些字段上编写相同的记录,但略有不同。之后我们再次运行它,我们得到一个没有太多信息的 Broken pipe 错误。没有关于错误的日志,只有 IOException: Broken pipe 错误。 . . .
为了简化脚本并隔离错误,我们将脚本修改为
for line in sys.stdin.readlines():
print line
避免在该级别出现任何错误。我们仍然有同样的错误。
最佳答案
这个问题似乎可以通过在不同的查询中拆分如此多的连接并使用中间表来解决。然后你只需添加一个最终查询,最后一个连接总结了所有以前的结果。据我了解,这意味着脚本级别没有错误,但配置单元处理的数据太多
关于hadoop - hive 破管错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13730119/