apache-spark - Spark Standalone - Tmp 文件夹

标签 apache-spark pyspark jupyter-notebook hortonworks-data-platform

我在集群的一个节点上使用带有 Pyspark 内核的 Jupyter Notebook,问题是我的 /tmp 文件夹总是满的。我已经更新了参数:

SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=172800"

问题是该文件夹只有 200GB,当我在 Jupyter 中关闭内核时,有没有办法说要 spark clean?或者我应该将 Dspark.worker.cleanup.appDataTtl 设置为 30 分钟,以便每 30 分钟删除所有临时文件/日志?

最佳答案

您可以尝试更改 Spark .local.dir 参数到具有更多空间的不同位置。

参见: https://spark.apache.org/docs/latest/configuration.html

关于apache-spark - Spark Standalone - Tmp 文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49925585/

相关文章:

apache-spark - Spark pivot groupby 性能很慢

python - Pyspark 等同于 Pyodbc?

python - Pyspark:根据两个RDD中两列的条件计算两个对应列的总和

python - PySpark 广播变量连接

r - “x”必须是数字回溯 : for computing correlation for a matrix

java - 在 Spark 中过滤自定义数据结构

Python MySQL Spark(java.lang.ClassNotFoundException : com. mysql.jdbc.Driver)

python - 如何在 pyspark 中设置 spark.sql.parquet.output.committer.class

python - Jupyter笔记本: TypeError: __init__() got an unexpected keyword argument 'io_loop'

ipython - 如何阻止 IPython 笔记本中的注释代码?