我想过滤掉 Spark 中的行 DataFrame
具有看起来像真实的电子邮件列,这是我尝试过的:
df.filter($"Email" match {case ".*@.*".r => true case _ => false})
但这不起作用。正确的做法是什么?
最佳答案
要扩展@TomTom101 的评论,您要查找的代码是:
df.filter($"Email" rlike ".*@.*")
match
的主要原因不工作是因为 DataFrame
有两个 filter functions它采用字符串或列。这不像 RDD
与一个 filter接受来自 T
的函数到 bool 值。
关于regex - 使用 Scala 中的 Spark 使用 Regex 过滤 DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33964957/