pyspark - 列出到 pyspark 中的 DataFrame

标签 pyspark pyspark-sql

谁能告诉我如何将包含字符串的列表转换为 pyspark 中的数据框。我正在使用 python 3.6 和 spark 2.2.1。我刚刚开始学习 Spark 环境,我的数据如下所示

my_data =[['apple','ball','ballon'],['cat','camel','james'],['none','focus','cake']]

现在,我想如下创建一个数据框

---------------------------------
|ID | words                     |
---------------------------------
 1  | ['apple','ball','ballon'] |
 2  | ['cat','camel','james']   |

我什至想添加数据中未关联的 ID 列

最佳答案

您可以将列表转换为 Row 对象列表,然后使用 spark.createDataFrame 从您的数据中推断架构:

from pyspark.sql import Row
R = Row('ID', 'words')

# use enumerate to add the ID column
spark.createDataFrame([R(i, x) for i, x in enumerate(my_data)]).show() 
+---+--------------------+
| ID|               words|
+---+--------------------+
|  0|[apple, ball, bal...|
|  1| [cat, camel, james]|
|  2| [none, focus, cake]|
+---+--------------------+

关于pyspark - 列出到 pyspark 中的 DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48290759/

相关文章:

python - 在 self 实现的对象/类的功能上使用 Pysparks rdd.parallelize().map()

apache-spark - 订购 Pyspark 窗口时缺少数据

python - python中的spark自定义排序

apache-spark - 将PySpark Dataframe批量写入SQL DB

python - 使用 spark 连接器从雪花自定义数据类型映射

pyspark - 日期数组中的间隔数组

python - 如何在 Zeppelin 中的 Python Pyspark 中打印粗体 - 以及使用 Zeppelin 中的 python-print-function 进行其他格式设置

python - 与Pyspark合并

json - 将单行文件中的多个 JSON 对象加载到 PySpark 时为空值

apache-spark - 在通过 JDBC 从 pyspark 数据帧插入到外部数据库表时进行重复键更新