Pyspark 程序......
df [df ["timeDiff"] <= 30]
or
df.filter(df["timeDiff"] <= 30)
这两个代码给出了相同的结果。但是有人可以解释一下在 Spark 分布式环境中哪个更有效吗?或者引用一些文件。我尝试在 stackoverflow 上搜索但没有成功....
最佳答案
就生成的执行计划而言,两者完全相同,因此您可以使用任何您喜欢的 - 不会有任何性能差异。
然而,后一种方法是一种惯用的方法,大多数示例、教程和项目都将使用这种方法。此外,它与 Scala API 几乎相同。因此,通常首选减少开发工作量。
关于apache-spark - 在 Spark 上过滤 Dataframe 的有效方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54323843/