我正在使用 python 和 pyspark 来扩展 SPSS Modeler。
我想操作 ~5000 列,因此使用以下构造:
for target in targets:
inputData = inputData.withColumn(target+appendString, function(target))
这非常慢。有没有更有效的方法来对所有目标列执行此操作?
targets
包含要使用的列名称列表,function(target)
是一个占位符,我可以在其中对不同的列进行操作,例如添加和除法。
如果你能帮助我,我会很高兴:)
潘达约
最佳答案
试试这个:
inputData.select(
'*',
*(function(target).alias(target+appendString) for target in targets)
)
关于python - 在多列上使用 df.withColumn(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49981833/