apache-spark - Spark Standalone - Tmp 文件夹

我在集群的一个节点上使用带有 Pyspark 内核的 Jupyter Notebook，问题是我的 /tmp 文件夹总是满的。我已经更新了参数:

SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=172800"

问题是该文件夹只有 200GB，当我在 Jupyter 中关闭内核时，有没有办法说要 spark clean？或者我应该将 Dspark.worker.cleanup.appDataTtl 设置为 30 分钟，以便每 30 分钟删除所有临时文件/日志？

最佳答案

您可以尝试更改 Spark .local.dir 参数到具有更多空间的不同位置。

关于apache-spark - Spark Standalone - Tmp 文件夹，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49925585/

相关文章：

apache-spark - Spark pivot groupby 性能很慢