dataframe - 如何拆分数字并在 pyspark 数据框中添加连字符?

标签 dataframe apache-spark pyspark split apache-spark-sql

我想拆分一列中的所有数字。

号码:123456789012

成为 123-4567890-12

所以我想在位置 4 和 10 添加 -

我不想新建专栏

最佳答案

你可以使用 regexp_replace :

from pyspark.sql import functions as F

df1 = df.withColumn(
    "number",
    F.regexp_replace(F.col("number"), "(\\d{3})(\\d{7})(\\d+)", "$1-$2-$3")
)

df1.show()

#+--------------+
#|        number|
#+--------------+
#|123-4567890-12|
#+--------------+

关于dataframe - 如何拆分数字并在 pyspark 数据框中添加连字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66066429/

相关文章:

Scala Spark 在数据帧和数据集中以不同方式处理 Double.NaN

java - 在Scala中,如何从由字符分隔的二进制文件中读取字节?

apache-spark - 与同等结构相比,为什么 Spark Row 对象如此之大?

apache-spark - PySpark:如何在特定列的数据框中填充值?

python - 使用 python 在远程机器上列出 HDFS 目录

python - Python:Dictionary系列的Pandas数据框

python - 隔离特定列中具有相同值的数据帧行的有效方法是什么?

python - 如何用pandas-python递归地构造一列数据框?

scala - 如何在不收集的情况下将RDD,Dataframe或Dataset直接转换为Broadcast变量?

apache-spark - 使用pyspark创建RDD,其中键是记录的第一个字段,值是整个记录