python - 在多列上使用 df.withColumn()

我正在使用 python 和 pyspark 来扩展 SPSS Modeler。

我想操作 ~5000 列，因此使用以下构造:

for target in targets:
    inputData = inputData.withColumn(target+appendString, function(target))

这非常慢。有没有更有效的方法来对所有目标列执行此操作？

targets 包含要使用的列名称列表，function(target) 是一个占位符，我可以在其中对不同的列进行操作，例如添加和除法。

如果你能帮助我，我会很高兴:)

潘达约

最佳答案

试试这个:

inputData.select(
    '*', 
    *(function(target).alias(target+appendString) for target in targets)
)

关于python - 在多列上使用 df.withColumn()，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49981833/

相关文章：

python - 动态单选按钮创建