apache-spark - 在 Spark 上过滤 Dataframe 的有效方法？

Pyspark 程序......

df [df ["timeDiff"] <= 30]
        or
df.filter(df["timeDiff"] <= 30)

这两个代码给出了相同的结果。但是有人可以解释一下在 Spark 分布式环境中哪个更有效吗？或者引用一些文件。我尝试在 stackoverflow 上搜索但没有成功....

最佳答案

就生成的执行计划而言，两者完全相同，因此您可以使用任何您喜欢的 - 不会有任何性能差异。

然而，后一种方法是一种惯用的方法，大多数示例、教程和项目都将使用这种方法。此外，它与 Scala API 几乎相同。因此，通常首选减少开发工作量。

关于apache-spark - 在 Spark 上过滤 Dataframe 的有效方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54323843/