dataframe - 如何过滤pyspark数据框中任何列为空的行

标签 dataframe filter pyspark null

它必须已经在 stackoverflow 上的某个地方,但我只是在寻找方法来过滤 pyspark 数据帧的行,其中 1 个特定列为空,而不是任何列为空。

import pandas as pd
import pyspark.sql.functions as f
my_dict = {"column1":list(range(100)),"column2":["a","b","c",None]*25,"column3":["a","b","c","d",None]*20}
my_pandas_df = pd.DataFrame(my_dict)

sparkDf = spark.createDataFrame(my_pandas_df)
sparkDf.show(5)

enter image description here

我试图在我的数据框的任何列上包含任何具有空值的行,基本上与此相反:

sparkDf.na.drop()

最佳答案

对于包含任何列为 null 的行:

sparkDf.filter(F.greatest(*[F.col(i).isNull() for i in sparkDf.columns])).show(5)

对于排除相同的:

sparkDf.na.drop(how='any').show(5)

关于dataframe - 如何过滤pyspark数据框中任何列为空的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63565196/

相关文章:

javascript - 如何在 JavaScript 中用对象转换数组?

javascript - 如何向数据表标题添加额外的过滤器?

pyspark - 数据处理 : Jupyter pyspark notebook unable to import graphframes package

python - Spark 中的潜在狄利克雷分配 (LDA)

Python StatsModels 时间序列分解重复图

python - 总结当前行与上一行的差异

java - 一会儿低音?

python - 如何使用pyspark仅对spark数据框中的一列进行排序?

python - 根据第二个数据框中的 NA 值覆盖 pandas 数据框中的值

python - 将抓取的列表添加到 Pandas Dataframe