python - 如何从 Pyspark RDD 中删除空行

标签 python apache-spark pyspark rdd

我想删除的 RDD 中有几个空行。我该怎么做?

我尝试了下面的方法,但它不起作用。我仍然得到空行

json_cp_rdd = xform_rdd.map(lambda (key, value): get_cp_json_with_planid(key, value)).filter(
            lambda x: x is not None).filter(
            lambda x: x is not '')

[u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'', u'[{ "PLAN_ID": "d2031aed-175f-4346-af31-9d05bfd4ea3a", "CostTotalInvEOPAmount": 0.0, "StoreCount": 0, "WeekEndingData": "2017-07-08", "UnitTotalInvBOPQuantity": 0.0, "PriceStatus": 1, "UnitOnOrderQuantity": null, "CostTotalInvBOPAmount": 0.0, "RetailSalesAmount": 0.0, "UnitCostAmount": 0.0, "CostReceiptAmount": 0.0, "CostSalesAmount": 0.0, "UnitSalesQuantity": 0.0, "UnitReceiptQuantity": 0.0, "UnitTotalInvEOPQuantity": 0.0, "CostOnOrderAmount": null}]', u'', u'', u'', u'', u'', u'', u'', u'', u'']

最佳答案

is 检查对象标识不相等。在 Python 2.x 中你可以使用 !=

.filter(lambda x: x is not None).filter(lambda x: x != "")

但习惯上你只能使用一个具有身份的过滤器:

.filter(lambda x: x)

或直接使用 bool :

.filter(bool)

关于python - 如何从 Pyspark RDD 中删除空行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41391899/

相关文章:

python - 如何从 eclipse 执行 Robot 测试用例,它将命令行列表参数作为输入?

apache-spark - Spark - sortWithInPartitions 排序

scala - 如何在 Spark 中强制执行 DataFrame 评估

python - 如何在 AWS Glue pyspark 脚本中合并两个节点

python - PySpark 代码是在 JVM 还是 Python 子进程中运行?

python - 如何进行 Pandas 条件合并

python - Pandas:根据应用函数删除行

python - python3中从文件导入函数的正确方法

python - 为什么 lil_matrix 和 dok_matrix 与普通的字典相比这么慢?

python - pyspark 数据帧所有列中唯一元素的数量