apache-spark - 在 Spark 上过滤 Dataframe 的有效方法?

标签 apache-spark pyspark apache-spark-sql

Pyspark 程序......

df [df ["timeDiff"] <= 30]
        or
df.filter(df["timeDiff"] <= 30)

这两个代码给出了相同的结果。但是有人可以解释一下在 Spark 分布式环境中哪个更有效吗?或者引用一些文件。我尝试在 stackoverflow 上搜索但没有成功....

最佳答案

就生成的执行计划而言,两者完全相同,因此您可以使用任何您喜欢的 - 不会有任何性能差异。

然而,后一种方法是一种惯用的方法,大多数示例、教程和项目都将使用这种方法。此外,它与 Scala API 几乎相同。因此,通常首选减少开发工作量。

关于apache-spark - 在 Spark 上过滤 Dataframe 的有效方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54323843/

相关文章:

amazon-web-services - Pyspark 数据帧从一个存储桶读取并在同一作业中使用不同的 KMS key 写入另一个存储桶

python - Pyspark 无法从 pathlib 对象加载

python - 在 PySpark 上描述数据帧

python - 如何在 pyspark dataframe 中创建嵌套字典

apache-spark - 在pyspark中将字符串列表转换为二进制列表

pyspark - 日期数组中的间隔数组

algorithm - SystemML 决策树 - "NUMBER OF SAMPLES AT NODE 1.0 CANNOT BE REDUCED TO MATCH 10"

java - Spark Streaming 优雅关机

scala - 在执行 pivot spark 之前分组并查找计数

apache-spark - Spark Streaming 创建许多小文件