最近我们已经升级到 Spark 1.6 并尝试使用 SparkQL 作为 Hive 的默认查询引擎。在与 HiveServer2 相同的机器上添加 Spark Gateway 角色,并启用 Spark On Yarn 服务。但是,当我运行如下查询时:
SET hive.execution.engine=spark;
INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GROUP BY country;
我们看到作业已被 Yarn 接受,分配了资源,状态显示它正在运行,但是,它显示了 10% 的恒定进度,并且在 Hue 或 Yarn UI 中都没有进一步发展。
如果我们检查 Spark UI 作业是否完成,我实际上会在 HDFS 上看到一个输出:
有人遇到过类似的问题吗?任何线索如何调试此类行为?
我使用 Cloudera CDH 5.12
最佳答案
只是分享我过去的经验。请阅读这篇文章:
希望对您有所帮助。
关于hadoop - Spark on Hive 进度条停留在 10%,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46676323/