我在集群的一个节点上使用带有 Pyspark 内核的 Jupyter Notebook,问题是我的 /tmp
文件夹总是满的。我已经更新了参数:
SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=172800"
问题是该文件夹只有 200GB,当我在 Jupyter 中关闭内核时,有没有办法说要 spark clean?或者我应该将 Dspark.worker.cleanup.appDataTtl
设置为 30 分钟,以便每 30 分钟删除所有临时文件/日志?
最佳答案
您可以尝试更改 Spark .local.dir 参数到具有更多空间的不同位置。
关于apache-spark - Spark Standalone - Tmp 文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49925585/