我有一个包含 4 个数值变量的数据框,我需要使用其他 4 个变量的总和创建另一个变量。 这个功能确实有效:
df4.withColumn( "sumVariables", sum(df4[x] for x in df4.columns[1:5])).show()
问题在于 Null 值的总和,因为结果在一行中
0|空| 1| 0
为空
如何解决?
最佳答案
用 0 替换 Null
df4 = df4.fillna(0)
df4.withColumn( "sumVariables", when(sum(df4[x] for x in df4.columns) > 0, sum(df4[x] for x in df4.columns)).otherwise(None)).show()
关于python - 如何使用 withColumn 对具有 NA 值的变量求和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44931833/