scala - 按两个单词过滤行 Spark Streaming

标签 scala apache-spark spark-streaming

有没有一种方法可以用一个表达式过滤包含单词“word1”或另一个“word2”的行 类似的东西:

val res = lines.filter(line => line.contains("word1" or "word2"))

因为这个表达式不起作用。

提前谢谢

最佳答案

如果 line 是一个 String 最佳选择将是正则表达式:

val pattern = "word1|word2".r

lines.filter(line => pattern.findFirstIn(line).isDefined)

否则(其他序列类型)您可以使用 Seq.exists :

lines.filter(line => Seq("foo", "bar").exists(s => line.contains(s)))

它需要一个从元素映射到 bool 值的单个值(这里(String) ⇒ Boolean)并且:

tests whether a predicate holds for at least one element of this iterable collection.

关于scala - 按两个单词过滤行 Spark Streaming,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36650184/

相关文章:

java - 如何在 Scala/Java 中测量从虚拟机中窃取的时间?

hadoop - 无法在终端中启动 Hive

scala - scala 中有 method_missing 吗?

Scala,通用元组

amazon-web-services - 为什么 spark-ec2 失败并显示 ERROR : Could not find any existing cluster?

java - Spark - 使用 Java 基于多个字段对元素进行排序

java - 如何在不使用collect函数的情况下有效地将rdd转换为list

scala - 展平 Spark SQL 查询中的数据 - Spark Dataframe

java - Spark - 流数据帧/数据集不支持非基于时间的窗口;

scala - 对一个类型指定多个约束 (Scala)