regex - Apache Spark : how to transform Data Frame column with regex to another Data Frame?

标签 regex scala apache-spark

我有几列的 Spark 数据帧 1: (user_uuid, url, date_visit)

我想将此 DF1 转换为具有以下形式的数据帧 2 : (user_uuid, domain, date_visit)

我想使用的是正则表达式来检测域并将其应用于 DF1 val regexpr = """(?i)^((https?):\/\/)?((www|www1)\.)?([\w-\.]+)""".r
你能帮我编写代码来转换 Scala 中的数据帧吗?我对 Spark 和 Scala 完全陌生,语法很难。谢谢!

最佳答案

Spark >= 1.5 :

您可以使用 regexp_extract功能:

import org.apache.spark.sql.functions.regexp_extract

val patter: String = ??? 
val groupIdx: Int = ???

df.withColumn("domain", regexp_extract(url, pattern, groupIdx))

Spark < 1.5.0

定义一个 UDF
val pattern: scala.util.matching.Regex = ???

def getFirst(pattern: scala.util.matching.Regex) = udf(
  (url: String) => pattern.findFirstIn(url) match { 
    case Some(domain) => domain
    case None => "unknown"
  }
)

使用定义的 UDF:
df.select(
  $"user_uuid",
  getFirst(pattern)($"url").alias("domain"),
  $"date_visit"
)

或注册临时表:
df.registerTempTable("df")

sqlContext.sql(s"""
  SELECT user_uuid, regexp_extract(url, '$pattern', $group_idx) AS domain, date_visit FROM df""")

替换 pattern使用有效的 Java 正则表达式和 group_id带有组的索引。

关于regex - Apache Spark : how to transform Data Frame column with regex to another Data Frame?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32121961/

相关文章:

scala - 推断Scala中相互依赖的默认方法实现

scala - Boot.scala 适用于哪里?

java - 单行文件大约 4G 加载到 Spark

amazon-web-services - 无法在 EMR 4.0.0 上安装 Ganglia

mysql - 希伯来语的 sql 正则表达式

php - 通过正则表达式删除 block 注释

scala - 设置 Cassandra 表扫描上的 Spark 任务数

java - Spark 流 : Writing number of rows read from a Kafka topic

html - 在 Haskell 中使用 TagSoup 解析标签

regex - Perl 中的十六进制数的按位非