pandas - 将 spark DataFrame 转换为 pandas DF

标签 pandas apache-spark apache-spark-sql

有没有办法将 Spark Df(不是 RDD)转换为 Pandas DF

我尝试了以下方法:

var some_df = Seq(
 ("A", "no"),
 ("B", "yes"),
 ("B", "yes"),
 ("B", "no")

 ).toDF(
"user_id", "phone_number")

代码:
%pyspark
pandas_df = some_df.toPandas()

错误:
 NameError: name 'some_df' is not defined

有什么建议。

最佳答案

以下应该工作

some_df = sc.parallelize([
 ("A", "no"),
 ("B", "yes"),
 ("B", "yes"),
 ("B", "no")]
 ).toDF(["user_id", "phone_number"])
pandas_df = some_df.toPandas()

关于pandas - 将 spark DataFrame 转换为 pandas DF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50958721/

相关文章:

python - 使用 pandas 重新分配项目会给出错误的结果

sbt - IOException : Cannot run program "javac" when "sudo ./sbt/sbt compile" in Spark?

scala - Spark 不支持的操作异常 : Schema for type org. apache.spark.sql.types.DataType 不受支持

scala - 如何在 Spark 应用程序中进行有效的日志记录

scala - 无法使用 spark 从 s3 存储桶中读取

python - 将行追加到数据框时遇到困难

python - 映射两个数据框以创建一个具有多个键值的字典 - Pandas

python - python 中条形图顶部的值

python - 如何使用在 Apache Spark 上训练的 ML 模型开发 REST API?

scala - 从Spark将地理数据插入Elasticsearch