apache-spark - spark数据帧中过滤器的多个条件

标签 apache-spark apache-spark-sql spark-dataframe

我有一个包含四个字段的数据框。字段名称之一是状态,我试图在 .filter 中使用 OR 条件作为数据帧。我尝试了以下查询,但没有运气。

df2 = df1.filter(("Status=2") || ("Status =3"))

df2 = df1.filter("Status=2" || "Status =3")

有没有人以前用过这个。我在堆栈溢出 here 上看到过类似的问题.他们使用以下代码来使用 OR 条件。但该代码适用于 pyspark。
from pyspark.sql.functions import col 

numeric_filtered = df.where(
(col('LOW')    != 'null') | 
(col('NORMAL') != 'null') |
(col('HIGH')   != 'null'))
numeric_filtered.show()

最佳答案

代替:

df2 = df1.filter("Status=2" || "Status =3")

尝试:
df2 = df1.filter($"Status" === 2 || $"Status" === 3)

关于apache-spark - spark数据帧中过滤器的多个条件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35881152/

相关文章:

python - 在 Spark 中加入 DF 后删除重复的列

hadoop - 通过Spark获取HDP版本

apache-spark - 添加新的从站而不停止主站?

java - 如何在java中使用spark从AWS S3读取.xls文件?并且无法读取sheetName

java - 使用 Java API 创建一个简单的 1 行 Spark DataFrame

python - 从列表创建 DataFrame

apache-spark - PySpark groupBy 中的中位数/分位数

java - Apache Spark 使用 Java 从 CSV 读取数组 float

java - 如何组织 Apache Spark 项目

scala - 依靠 Spark Dataframe 的速度非常慢