python - 如何 : Pyspark dataframe persist usage and reading-back

我对 pyspark 很陌生，我遇到了以下错误:Py4JJavaError: An error occurred while calling o517.showString.我读过这是由于内存不足造成的:Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded所以，我一直在读到这种情况的转变是使用 df.persist()然后再次阅读持久化的df，所以我想知道:

给定一个 for我在其中做了一些循环 .join操作，我应该使用 .persist()在循环内还是在循环结束时？例如

for col in columns:
   df_AA = df_AA.join(df_B, df_AA[col] == 'some_value', 'outer').persist()

--> or <--

for col in columns:
   df_AA = df_AA.join(df_B, df_AA[col] == 'some_value', 'outer')
df_AA.persist()

一旦我这样做了，我应该如何回读？df_AA.unpersist() ? sqlContext.read.some_thing(df_AA) ?

我对此很陌生，所以请尽量解释清楚。
我在本地机器(8GB 内存)上运行，使用 jupyter-notebooks(anaconda)； Windows 7的; java 8; python 3.7.1; pyspark v2.4.3

最佳答案

Spark 是惰性评估框架，因此 都没有转换 例如:调用 join 直到你调用一个 Action 。

所以继续你所做的

from pyspark import StorageLevel
    for col in columns:
       df_AA = df_AA.join(df_B, df_AA[col] == 'some_value', 'outer')
    df_AA.persist(StorageLevel.MEMORY_AND_DISK)
    df_AA.show()

有多个持久选项可用，因此选择 MEMORY_AND_DISK 会将内存中无法处理的数据溢出到 DISK 中。

此外，GC 错误可能是为 Spark 应用程序运行提供的驱动程序内存较少的结果。

关于python - 如何 : Pyspark dataframe persist usage and reading-back，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58396618/

python - 如何 : Pyspark dataframe persist usage and reading-back

上一篇：validation - DDD - 实体的存储库相关验证

下一篇：logging - 如何截断 kubernetes pod 的日志？