hadoop - Spark on Hive 进度条停留在 10%

标签 hadoop apache-spark hive hadoop-yarn cloudera-cdh

最近我们已经升级到 Spark 1.6 并尝试使用 SparkQL 作为 Hive 的默认查询引擎。在与 HiveServer2 相同的机器上添加 Spark Gateway 角色，并启用 Spark On Yarn 服务。但是，当我运行如下查询时:

SET hive.execution.engine=spark;
INSERT OVERWRITE DIRECTORY '/user/someuser/spark_test_job' SELECT country, COUNT(*) FROM country_date GROUP BY country;

我们看到作业已被 Yarn 接受，分配了资源，状态显示它正在运行，但是，它显示了 10% 的恒定进度，并且在 Hue 或 Yarn UI 中都没有进一步发展。如果我们检查 Spark UI 作业是否完成，我实际上会在 HDFS 上看到一个输出: 有人遇到过类似的问题吗？任何线索如何调试此类行为？我使用 Cloudera CDH 5.12

最佳答案

只是分享我过去的经验。请阅读这篇文章:

https://community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/Hive-on-Spark-tasks-never-finish/td-p/52565

希望对您有所帮助。

关于hadoop - Spark on Hive 进度条停留在 10%，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46676323/

上一篇：hadoop - Spark 数据集加载文件夹内带有标题的多个 CSV 文件并报告不匹配，以防所有文件中的标题不相同

下一篇：hadoop - java.lang.RuntimeException : org. apache.hadoop.hive.ql.metadata.HiveException : org. apache.hadoop.ipc.RemoteException : java. io.IOException:

scala - Spark scala Dataframe isin

hadoop - 什么时候文件 "splittable"？

date - 如何在HIVE中进行字符串日期操作？

scala - 如何在现有的 Hadoop 2.x 中使用 spark

Hadoop hive : How to allow regular user continuously write data and create tables in warehouse directory?

sql - 为什么从文件插入表中会生成多个映射器，而不会从另一个文件插入文件中呢？

hadoop - Spark - 寻找重叠值或寻找共同 friend 的变体

python-2.7 - Python Spark从数据框中提取字符

hadoop - 使用 kafka-connect 的多个配置单元分区