python-3.x - 将 Pandas 数据帧转换为 PySpark 数据帧

标签 python-3.x pandas pyspark apache-spark-sql pyspark-sql

这个问题在这里已经有了答案:





Convert between spark.SQL DataFrame and pandas DataFrame [duplicate]

(1 个回答)


2年前关闭。




我有一个具有以下设置的脚本。

我在用:

1) Spark 数据帧来拉取数据
2)初始聚合后转换为pandas数据帧
3) 想转换回 Spark 写入 HDFS

从 Spark --> Pandas 的转换很简单,但我在如何将 Pandas 数据帧转换回 Spark 方面苦苦挣扎。

你能建议吗?

from pyspark.sql import SparkSession
import pyspark.sql.functions as sqlfunc
from pyspark.sql.types import *
import argparse, sys
from pyspark.sql import *
import pyspark.sql.functions as sqlfunc
import pandas as pd

def create_session(appname):
    spark_session = SparkSession\
        .builder\
        .appName(appname)\
        .master('yarn')\
        .config("hive.metastore.uris", "thrift://uds-far-mn1.dab.02.net:9083")\
        .enableHiveSupport()\
        .getOrCreate()
    return spark_session
### START MAIN ###
if __name__ == '__main__':
    spark_session = create_session('testing_files')

我已经尝试了以下 - 没有错误,只是没有数据!确认一下,df6 确实有数据 & 是一个 Pandas 数据框
df6 = df5.sort_values(['sdsf'], ascending=["true"])
sdf = spark_session.createDataFrame(df6)
sdf.show()

最佳答案

开始了:

# Spark to Pandas
df_pd = df.toPandas()

# Pandas to Spark
df_sp = spark_session.createDataFrame(df_pd)

关于python-3.x - 将 Pandas 数据帧转换为 PySpark 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52943627/

相关文章:

python多重继承,调用基类函数

python - 将变量从另一个 .py 文件检索到 cog 文件。 (不和谐.py)

python - 初学者 python 翻译器 : I am unable to convert a list from shelve module into a string

python-3.x - 基本 Flask SQLAlchemy 上下文问题

python - scikit 索引越界

python - Pandas - 根据索引结果返回 pandas 中的相邻列

python - pandas dataframe 聚合固定数量的行

python - 将 DataFrame 中的新派生列从 bool 值转换为整数

python - Pyspark:flattem 数组列

azure - 调用带有$值的列spark sql