python - 使用 Python 将 Dask Dataframe 转换为 Spark Dataframe

标签 python pandas apache-spark pyspark dask

我想将 Dask Dataframe 转换为 Spark Dataframe。

让我们考虑这个例子:

import dask.dataframe as dd
dask_df = dd.read_csv("file_name.csv")

# convert dask df to spark df
spark_df = spark_session.createDataFrame(dask_df)

但这不起作用。有没有其他方法可以做到这一点。提前致谢。

最佳答案

对于较大的数据集,最好使用 Dask 将 Spark DataFrame 写入磁盘并使用 Spark 读取。

以下是转换较小数据集的方法。

pandas_df = dask_df.compute()
pyspark_df = spark.createDataFrame(pandas_df) 

我不知道有什么内存方法可以在不进行大规模洗牌的情况下将 Dask DataFrame 转换为 Spark DataFrame,但这肯定是一个很酷的功能。

enter image description here

关于python - 使用 Python 将 Dask Dataframe 转换为 Spark Dataframe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66369505/

相关文章:

Python:从父子值列表创建嵌套字典

pandas - 使用 pandas 删除索引列表

python - Pandas 使用上一周期填充行值

apache-spark - 使用Java在Spark中进行映射

python - 再向模式添加一个 StructField

python - Beautiful Soup 无法从表中获取信息

python - 使用 pandas 的绘图方法在 1 行中绘制图表时出现问题

python非 block 读取文件

python - 在数据框中不使用循环的情况下进行简单的 Excel min 计算

algorithm - 使用 spark 的笛卡尔积