hadoop - hive 破管错误

标签 hadoop hive

我一直在从事一个包含配置单元查询的项目。

INSERT INTO OVERWRITE .... TRANSFORM (....) USING 'python script.py' FROM .... LEFT OUTER JOIN . . . LEFT OUTER JOIN . . . LEFT OUTER JOIN

一开始一切正常,直到我们加载了大量的虚拟数据。我们只是在某些字段上编写相同的记录,但略有不同。之后我们再次运行它,我们得到一个没有太多信息的 Broken pipe 错误。没有关于错误的日志,只有 IOException: Broken pipe 错误。 . . .

为了简化脚本并隔离错误,我们将脚本修改为

for line in sys.stdin.readlines():
    print line

避免在该级别出现任何错误。我们仍然有同样的错误。

最佳答案

这个问题似乎可以通过在不同的查询中拆分如此多的连接并使用中间表来解决。然后你只需添加一个最终查询,最后一个连接总结了所有以前的结果。据我了解,这意味着脚本级别没有错误,但配置单元处理的数据太多

关于hadoop - hive 破管错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13730119/

相关文章:

mysql - 我在 Mysql 的查询中编写了这个查询,但它在 Hive 中不起作用。它向我显示一个错误

java - 使用hadoop jar时如何增加堆大小?

scala - 尝试写入 hdfs : Server IPC version 9 cannot communicate with client version 4 时出错

python - 如何从表中创建对

hadoop - 这与在配置单元的列上创建主键有何不同?

amazon-web-services - 在Amazon EMR中设置配置单元属性?

hadoop - map reduce 从 ftp 读取文件

linux - 我无法使用 Ubuntu 安装//下载 Hadoop

python - 根据感兴趣的日期范围作为参数输入,限制在 Pig Latin 中加载日志文件

hadoop - 如何为配置单元查询编写 mapreduce 代码