pyspark - 如何使用 Pyspark 将数据帧保存到 pickle 文件

标签 pyspark pickle

我必须将数据帧保存到 Pickle 文件,但它返回错误

df.saveAsPickleFile(path)

属性错误:“Dataframe”对象没有属性“saveAsPickleFile”

最佳答案

saveAsPickleFileRDD 的方法,而不是数据帧的方法。

请参阅此文档: http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=pickle

所以你可以调用:

df.rdd.saveAsPickleFile(filename)

要从文件加载它,请运行:

pickleRdd = sc.pickleFile(filename).collect()
df2 = spark.createDataFrame(pickleRdd)

关于pyspark - 如何使用 Pyspark 将数据帧保存到 pickle 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49559004/

相关文章:

python : How to search a large array in effiecient way?

apache-spark - Spark ;检查元素是否在 collect_list 中

python - pyspark计算稀疏向量的距离矩阵

python - Pickle 转储和时间戳与预期不符

python - 通过 Socket 发送 numpy 数组

Python - 需要解析多个 XML 文件的所有元素。最快的解析器?

apache-spark - 查找 Spark DataFrame 中每组的最大行数

json - 从 s3 读取 json 文件以使用glueContext.read.json 粘合 pyspark 会给出错误的结果

python - 在 pyspark 中保存和加载两个 ML 模型

python - 我们可以用 python 生成器读取 pickle 文件中的数据吗