apache-spark - 根据pyspark中的条件从数据框中删除行

标签 apache-spark dataframe pyspark

我有一个包含两列的数据框:

+--------+-----+
|    col1| col2|
+--------+-----+
|22      | 12.2|
|1       |  2.1|
|5       | 52.1|
|2       | 62.9|
|77      | 33.3|

我想创建一个新的数据框,它只需要行

"value of col1" > "value of col2"



正如一个说明 col1 已长 类型和 col2 有双 类型

结果应该是这样的:
+--------+----+
|    col1|col2|
+--------+----+
|22      |12.2|
|77      |33.3|

最佳答案

另一种可能的方法是使用 where DF 的功能。

例如这个:

val output = df.where("col1>col2")

会给你预期的结果:
+----+----+
|col1|col2|
+----+----+
|  22|12.2|
|  77|33.3|
+----+----+

关于apache-spark - 根据pyspark中的条件从数据框中删除行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52395986/

相关文章:

dataframe - 如何在 Spark Scala 中检查 df 列中的 Luhn

scala - 为什么使用 Kafka 的 Spark Streaming 应用程序失败并显示 "ClassNotFoundException: org.apache.spark.streaming.kafka.KafkaRDDPartition"?

pandas - 替换 Pandas MultiIndex 的所有级别中的 NaN 值

python - 如何在 Pyspark 中找到数组列的多模式

scala - 如何按多列过滤数据框?

r - 在 data.frame 中查找最频繁的值组合

python - 如何将单列中的值分配给多列?

apache-spark - PySpark 数据框 to_json() 函数

pyspark - 将 rest api get 方法响应保存为 json 文档

hadoop - 如何在多个hadoop集群中将一个节点用作数据节点