Pyspark,添加冒号来分隔字符串

标签 pyspark

我有以下字符串 103400 我需要使用 pyspark 将其写为 10:34:00。以下列为例

time
130045
230022

我希望它变成这样:

time
13:00:45
23:00:22  

最佳答案

您可以尝试使用 regexp_replace

df.withColumn("time", regexp_replace(col("time") ,  "(\\d{2})(\\d{2})(\\d{2})" , "$1:$2:$3" ) ).show()

+--------+
| time   |
+--------+
|13:00:45|
|23:00:22|
+--------+

关于Pyspark,添加冒号来分隔字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58270077/

相关文章:

apache-spark - Parquet 列无法在文件中转换,预期为 : bigint, 发现:INT32

python - 为 Pyspark 数据框按多列重新分区

python - 为训练 Tensorflow 网络提供 spark 数据帧的最佳实践

sql-server - 由于表名 "User"是保留名称,因此无法提取表数据

python - Apache Spark JointByKey 与 Python 中的元素列表

pyspark - 在spark中读取谷歌存储桶数据

python - pyspark 在将 rdd 转换为数据帧时对 mapPartitions 使用一个任务

apache-spark - 使用训练、测试和验证集进行 Spark 交叉验证

python - 如何计算分组的 Spark 数据框中的 bool 值

apache-spark - 设置 PySpark 脚本中使用的核心数量?