python - 连接 Spark Dataframe 中包含列表值的列

标签 python apache-spark pyspark concatenation apache-spark-sql

我有一个数据框(spark)，它有 2 列，每列都有列表值。我想创建一个新列，它将 2 列(以及列内的列表值)连接起来。例如

第 1 列有一个行值 - [A,B]

第 2 列有一个行值 - [C,D]

“输出应该在一个新列中，即”

第 3 列(新创建的列)，其行值 - [A,B,C,D]

注意:- 列值的值存储在 LIST 中

请帮我用 pyspark 实现这个。谢谢

最佳答案

我们可以使用 UDF 作为，

 >>> from pyspark.sql import functions as F
 >>> from pyspark.sql.types import *
 >>> udf1 = F.udf(lambda x,y : x+y,ArrayType(StringType()))
 >>> df = df.withColumn('col3',udf1('col1','col2'))

关于python - 连接 Spark Dataframe 中包含列表值的列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49382957/

上一篇：microsoft-graph-api - 使用Microsoft Graph API更新PasswordProfile(密码重置)

下一篇：angular - Httpclient Angular 教程

python - 在 Python 中测试空 xml 文件

python - 基于局部变量的Django条件过滤器

scala - Spark 的 toDS 与 DF

python - 创建一个包含每个文件的架构数据的数据框

apache-spark - 如何使用UDF处理大的增量表？

python - 导入错误 : No module named 'pygame'

python - 在Python中迭代字典值

apache-spark - Spark : how to get all configuration parameters

apache-spark - 我如何将一列临时存储为 json 对象以派生其他列？