我想将 Dask Dataframe 转换为 Spark Dataframe。
让我们考虑这个例子:
import dask.dataframe as dd
dask_df = dd.read_csv("file_name.csv")
# convert dask df to spark df
spark_df = spark_session.createDataFrame(dask_df)
但这不起作用。有没有其他方法可以做到这一点。提前致谢。
最佳答案
对于较大的数据集,最好使用 Dask 将 Spark DataFrame 写入磁盘并使用 Spark 读取。
以下是转换较小数据集的方法。
pandas_df = dask_df.compute()
pyspark_df = spark.createDataFrame(pandas_df)
我不知道有什么内存方法可以在不进行大规模洗牌的情况下将 Dask DataFrame 转换为 Spark DataFrame,但这肯定是一个很酷的功能。
关于python - 使用 Python 将 Dask Dataframe 转换为 Spark Dataframe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66369505/