regex - 使用 Scala 中的 Spark 使用 Regex 过滤 DataFrame

我想过滤掉 Spark 中的行 DataFrame具有看起来像真实的电子邮件列，这是我尝试过的:

df.filter($"Email" match {case ".*@.*".r => true case _ => false})

但这不起作用。正确的做法是什么？

最佳答案

要扩展@TomTom101 的评论，您要查找的代码是:

df.filter($"Email" rlike ".*@.*")

match的主要原因不工作是因为 DataFrame有两个 filter functions它采用字符串或列。这不像 RDD与一个 filter接受来自 T 的函数到 bool 值。

关于regex - 使用 Scala 中的 Spark 使用 Regex 过滤 DataFrame，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33964957/

相关文章：

c# regex - 组和嵌套组