python - 连接 Spark Dataframe 中包含列表值的列

标签 python apache-spark pyspark concatenation apache-spark-sql

我有一个数据框(spark),它有 2 列,每列都有列表值。我想创建一个新列,它将 2 列(以及列内的列表值)连接起来。 例如

第 1 列有一个行值 - [A,B]

第 2 列有一个行值 - [C,D]

“输出应该在一个新列中,即”

第 3 列(新创建的列),其行值 - [A,B,C,D]

注意:- 列值的值存储在 LIST 中

请帮我用 pyspark 实现这个。 谢谢

最佳答案

我们可以使用 UDF 作为,

 >>> from pyspark.sql import functions as F
 >>> from pyspark.sql.types import *
 >>> udf1 = F.udf(lambda x,y : x+y,ArrayType(StringType()))
 >>> df = df.withColumn('col3',udf1('col1','col2'))

关于python - 连接 Spark Dataframe 中包含列表值的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49382957/

相关文章:

apache-spark - 在 Spark ML 中,为什么在具有数百万个不同值的列上安装 StringIndexer 会产生 OOM 错误?

python - 在 Python 中测试空 xml 文件

python - 基于局部变量的Django条件过滤器

scala - Spark 的 toDS 与 DF

python - 创建一个包含每个文件的架构数据的数据框

apache-spark - 如何使用UDF处理大的增量表?

python - 导入错误 : No module named 'pygame'

python - 在Python中迭代字典值

apache-spark - Spark : how to get all configuration parameters

apache-spark - 我如何将一列临时存储为 json 对象以派生其他列?