hadoop - Spark on Hive 进度条停留在 10%

标签 hadoop apache-spark hive hadoop-yarn cloudera-cdh

最近我们已经升级到 Spark 1.6 并尝试使用 SparkQL 作为 Hive 的默认查询引擎。在与 HiveServer2 相同的机器上添加 Spark Gateway 角色,并启用 Spark On Yarn 服务。但是,当我运行如下查询时:

SET hive.execution.engine=spark;
INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GROUP BY country; 

我们看到作业已被 Yarn 接受,分配了资源,状态显示它正在运行,但是,它显示了 10% 的恒定进度,并且在 Hue 或 Yarn UI 中都没有进一步发展。 From Hue 如果我们检查 Spark UI 作业是否完成,我实际上会在 HDFS 上看到一个输出: output from Spark UI 有人遇到过类似的问题吗?任何线索如何调试此类行为? 我使用 Cloudera CDH 5.12

最佳答案

只是分享我过去的经验。请阅读这篇文章:

https://community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/Hive-on-Spark-tasks-never-finish/td-p/52565

希望对您有所帮助。

关于hadoop - Spark on Hive 进度条停留在 10%,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46676323/

相关文章:

serialization - Spark kryo 序列化寄存器 Datatype[]

scala - Spark scala Dataframe isin

hadoop - 什么时候文件 "splittable"?

date - 如何在HIVE中进行字符串日期操作?

scala - 如何在现有的 Hadoop 2.x 中使用 spark

Hadoop hive : How to allow regular user continuously write data and create tables in warehouse directory?

sql - 为什么从文件插入表中会生成多个映射器,而不会从另一个文件插入文件中呢?

hadoop - Spark - 寻找重叠值或寻找共同 friend 的变体

python-2.7 - Python Spark从数据框中提取字符

hadoop - 使用 kafka-connect 的多个配置单元分区