python - 如何使用 withColumn 对具有 NA 值的变量求和

标签 python pyspark

我有一个包含 4 个数值变量的数据框,我需要使用其他 4 个变量的总和创建另一个变量。 这个功能确实有效:

df4.withColumn( "sumVariables", sum(df4[x] for x in df4.columns[1:5])).show()

问题在于 Null 值的总和,因为结果在一行中

0|空| 1| 0 为空

如何解决?

最佳答案

用 0 替换 Null

df4 = df4.fillna(0)
df4.withColumn( "sumVariables", when(sum(df4[x] for x in df4.columns) > 0, sum(df4[x] for x in df4.columns)).otherwise(None)).show()

关于python - 如何使用 withColumn 对具有 NA 值的变量求和,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44931833/

相关文章:

python - 从 pyspark 导入 TensorFlow 数据

python - 带 Spark 的 iPython 笔记本在 SparkContext 中出现错误

python - 将轴标题添加到 3D 曲面图袖扣和绘图

python - 如何使用 Django 和 South 创建父类(super class)(针对现有模型)

如果 streams=True,Python Requests 模块不处理超时?

apache-spark - 在 Pyspark/Jupyter 中设置 spark.local.dir

lambda - 使用 pyspark 交叉组合两个 RDD

apache-spark - 递归读取文件 Spark WholeTextFiles

python - Holoviews/bokeh - 多个堆叠条形图

python - 从文件名中提取单词列表