python - 如何从 Spark SQL 中的列表创建数据框?

标签 python apache-spark pyspark

星火版本:2.1

例如,在pyspark中,我创建了一个列表

test_list = [['Hello', 'world'], ['I', 'am', 'fine']]

然后如何从 test_list 创建数据框,其中数据框的类型如下所示:

DataFrame[words: array<string>]

最佳答案

方法是这样的

from pyspark.sql.types import *

cSchema = StructType([StructField("WordList", ArrayType(StringType()))])

# notice extra square brackets around each element of list 
test_list = [['Hello', 'world']], [['I', 'am', 'fine']]

df = spark.createDataFrame(test_list,schema=cSchema) 

关于python - 如何从 Spark SQL 中的列表创建数据框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43444925/

相关文章:

python - 在 Linux 中使用 Python 模拟击键

python - 正则表达式中的意外结果

python - 我怎样才能让 xticks 在我的 matplotlib 图上有一个每月的间隔而不是每天

apache-spark - Spark 操作因 EOFException 而卡住

python - 无法从 Spark 提交中的 JAR 文件加载主类

Python 由于内存不足而导致计算机崩溃

python - Django,在数据库中存储函数

java - MapType 在 Spark 3.x : Encoders. bean 中导致 AnalysisException 到包含 map<String, someClass> 的对象失败,这在 Spark 2.4 中工作正常

java - 停止Context后如何重用spark RDD

python - 从 SPARK 中的另一个 RDD 返回最大 N 值的 RDD