scala - 可以在 spark 中处理多字符分隔符

标签 scala apache-spark databricks

这个问题在这里已经有了答案:

Does spark-sql support multiple delimiters in the input data?

(1 个回答)

How to split using multi-char separator with pipe?

(1 个回答)

3年前关闭。

我有 [~]作为我正在阅读的某些 csv 文件的分隔符。

1[~]a[~]b[~]dd[~][~]ww[~][~]4[~]4[~][~][~][~][~]

我试过这个

val rddFile = sc.textFile("file.csv")
val rddTransformed = rddFile.map(eachLine=>eachLine.split("[~]"))
val df = rddTransformed.toDF()
display(df)

然而，这个问题在于它是一个带有 [ 的单值数组。和 ]在每个领域。所以数组将是

["1[","]a[","]b[",...]

我不能用

val df = spark.read.option("sep", "[~]").csv("file.csv")

因为不支持多字符分隔符。我可以采取什么其他方法？

1[~]a[~]b[~]dd[~][~]ww[~][~]4[~]4[~][~][~][~][~]
2[~]a[~]b[~]dd[~][~]ww[~][~]4[~]4[~][~][~][~][~]
3[~]a[~]b[~]dd[~][~]ww[~][~]4[~]4[~][~][~][~][~]

编辑 - 这不是重复的，重复的线程是关于多分隔符的，这是多字符单分隔符

最佳答案

val df = spark.read.format("csv").load("inputpath")
df.rdd.map(i => i.mkString.split("\\[\\~\\]")).toDF().show(false)

试试下面

为您的另一个要求

val df1 = df.rdd.map(i => i.mkString.split("\\[\\~\\]").mkString(",")).toDF()
val iterationColumnLength = df1.rdd.first.mkString(",").split(",").length
df1.withColumn("value",split(col("value"),",")).select((0 until iterationColumnLength).map(i => col("value").getItem(i).as("col_" + i)): _*).show

关于scala - 可以在 spark 中处理多字符分隔符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52083828/

上一篇：actions-on-google - 相当于 Alexa 的 Google Assistant 告诉 [skill]

下一篇：c - 使用时间戳计数器测量内存延迟

相关文章：

python - PySpark:将 RDD 转换为数据框中的列

apache-spark - 为 Databricks 生成数据库架构图

amazon-s3 - Databricks 中的显式表分区如何影响写入性能？

sql - 如何为 Spark SQL DataFrame 映射构造 ClassTag？

scala - 将未知长度的元组转换为 Scala 中的列表

scala - Spark Scala 代码性能调整内存开销错误

scala - 让一种方法接受两种不同模型的 Scala 最佳实践是什么

apache-spark - Spark 中的任务是什么？ Spark Worker如何执行jar文件？

python - 无法从列表 : pyspark 创建数据框

apache-spark - Spark : dataframe. count 产生的行数比逐行打印或 show() 更多