python - 为什么我的PySpark程序会卡在中间如下

标签 python apache-spark pyspark rdd

我写了一个 PySpark 程序,当我运行它时,它打印了很多输出然后突然挂起并在屏幕上显示以下语句

[Stage 11:===================================>                   (65 + 1) / 100]

它根本没有从这里开始。是程序真的结束了还是这里出了什么问题?

最佳答案

当您使用 Apache Spark 时,这很常见,可能有几个问题或异常没有显示在终端中,但是要调试它,您可以阅读运行时发生的情况,但是 取决于您当前安装的 Apache Spark(这就是我不发布链接的原因),您可以在此文档上找到更多信息。 Monitoring and Logging in Apache Spark

你必须搜索这个WebUI,在Description栏你可以点击+ details(你需要点击您将调试的作业),如果您继续前进,您会发现越来越多的信息。

Failing Job Details

关于python - 为什么我的PySpark程序会卡在中间如下,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34268695/

相关文章:

dataframe - 重命名 PySpark DataFrame 聚合的列

python - 将多个 xlsx 文件合并为一个

python - 使用 re.sub 将正则表达式的替换变量替换为字符串

python - 在Python中检测两个时间戳何时产生相同本地时间的最快方法是什么?

java - Spark SQL Hive Datanucleus jar 类路径

apache-spark - 从事件流中查找事件的子序列

python - setuptools:测试我的额外功能

apache-spark - 在PySpark中用空数组过滤行

hadoop - 如何在pyspark中更改DataFrame的HDFS block 大小

json - 使用 pyspark 将 json 文件读入 RDD(不是 dataFrame)