apache-spark - 在 Spark 中将日期转换为 ISO 周日期

标签 apache-spark date pyspark apache-spark-sql spark3

在一列中有日期,如何创建包含 ISO week date 的列?

ISO 周日期由周数星期组成。

  • year 与使用 year 获得的年份不同功能。
  • 周数 是比较简单的部分 - 它可以使用 weekofyear 获得.
  • weekday 应该为星期一返回 1,为星期日返回 7,而 Spark 的 dayofweek做不到。

示例数据框:

from pyspark.sql import SparkSession, functions as F
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame([
    ('1977-12-31',),
    ('1978-01-01',),
    ('1978-01-02',),
    ('1978-12-31',),
    ('1979-01-01',),
    ('1979-12-30',),
    ('1979-12-31',),
    ('1980-01-01',)],
    ['my_date']
).select(F.col('my_date').cast('date'))

df.show()
#+----------+
#|   my_date|
#+----------+
#|1977-12-31|
#|1978-01-01|
#|1978-01-02|
#|1978-12-31|
#|1979-01-01|
#|1979-12-30|
#|1979-12-31|
#|1980-01-01|
#+----------+

期望的结果:

+----------+-------------+
|   my_date|iso_week_date|
+----------+-------------+
|1977-12-31|   1977-W52-6|
|1978-01-01|   1977-W52-7|
|1978-01-02|   1978-W01-1|
|1978-12-31|   1978-W52-7|
|1979-01-01|   1979-W01-1|
|1979-12-30|   1979-W52-7|
|1979-12-31|   1980-W01-1|
|1980-01-01|   1980-W01-2|
+----------+-------------+

最佳答案

Spark SQL extract使这变得容易得多。

  • iso_year = F.expr("EXTRACT(YEAROFWEEK FROM my_date)")
  • iso_weekday = F.expr("EXTRACT(DAYOFWEEK_ISO FROM my_date)")

因此,使用 concat_ws 构建其他答案:

import pyspark.sql.functions as F

df.withColumn(
    'iso_week_date',
    F.concat_ws(
        "-",
        F.expr("EXTRACT(YEAROFWEEK FROM my_date)"),
        F.lpad(F.weekofyear('my_date'), 3, "W0"),
        F.expr("EXTRACT(DAYOFWEEK_ISO FROM my_date)")
    )
).show()

#+----------+-------------+
#|   my_date|iso_week_date|
#+----------+-------------+
#|1977-12-31|   1977-W52-6|
#|1978-01-01|   1977-W52-7|
#|1978-01-02|   1978-W01-1|
#|1978-12-31|   1978-W52-7|
#|1979-01-01|   1979-W01-1|
#|1979-12-30|   1979-W52-7|
#|1979-12-31|   1980-W01-1|
#|1980-01-01|   1980-W01-2|
#+----------+-------------+

关于apache-spark - 在 Spark 中将日期转换为 ISO 周日期,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70509006/

相关文章:

apache-spark - spark-submit 中的 Spark : How to set spark. yarn.executor.memoryOverhead 属性

apache-spark - 如何从 Cassandra 表加载元组?

java - 日期差异java实现错误输出

javascript - 如何最好地显示事件的本地时间?

android - GPS 在 Android 中给出错误的日期和时间

mysql - 从sparklyr和/或pyspark连接到mysql

python - PySpark:如何在 rdd join 期间从左表中选择 *

java - 使用 Apache Spark SQLContext 写入时出错

python - 在 PySpark 上将日期时间转换为日期

python - 将复杂的数据帧行划分为 Pyspark 中的简单行