pyspark - 当数据帧从 pyspark 的内存中删除时,?如何显式删除数据框?

标签 pyspark

这是场景示例,我想在释放内存的代码不再使用 df1 后立即删除 df1 -

df1 = spark.sql("Select 1 as X")
df2 = df1.withColumn("Y", df1["X"])

# here if I want to remove df1 then what should be the code.

df2.show()

最佳答案

如果我们使用 df.persist() 或某些缓存级别,我们可以取消数据帧的持久化。但这里我们没有使用任何缓存。 如果你确实想清除内存,请检查垃圾收集调整

https://github.com/apache/spark/blob/master/docs/tuning.md

注意:Dataframe 不保存数据。

关于pyspark - 当数据帧从 pyspark 的内存中删除时,?如何显式删除数据框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59860611/

相关文章:

linux - 启动 jupyter-pyspark 内核时生成损坏的文件

json - 从 Hive 表中的 json 字符串中提取值

python - 如何在 Databricks 上绘制 Python XGB 决策树

python - 数据框 pyspark 到 dict

python - 如何在 Pyspark 中将行分成多行

python - 使用多行选项和编码选项读取 CSV

python - 在同一 IDE 中使用 Spark 和 Python

pyspark - 在 pyspark 中聚合 Kolmogorov Smirnov 测试

python - PySpark 相当于 Pandas UDF 中的 lambda 函数

apache-spark - 如何将字符串中的时间值从 PT 格式转换为秒?