我有一个数据框(spark),它有 2 列,每列都有列表值。我想创建一个新列,它将 2 列(以及列内的列表值)连接起来。 例如
第 1 列有一个行值 - [A,B]
第 2 列有一个行值 - [C,D]
“输出应该在一个新列中,即”
第 3 列(新创建的列),其行值 - [A,B,C,D]
注意:- 列值的值存储在 LIST 中
请帮我用 pyspark 实现这个。 谢谢
最佳答案
我们可以使用 UDF 作为,
>>> from pyspark.sql import functions as F
>>> from pyspark.sql.types import *
>>> udf1 = F.udf(lambda x,y : x+y,ArrayType(StringType()))
>>> df = df.withColumn('col3',udf1('col1','col2'))
关于python - 连接 Spark Dataframe 中包含列表值的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49382957/