python - pyspark : How to apply to a dataframe value another value depending on date in another dataframe

标签 python dataframe apache-spark pyspark

我的第一个数据帧 df 包含 start_date 和值，第二个数据帧 df_v 仅包含日期。

我的df:

+-------------------+-----+
|      start_date   |value|
+-------------------+-----+
|2019-03-17 00:00:00|   35|
+-------------------+-----+
|2019-05-20 00:00:00|   40|
+-------------------+-----+
|2019-06-03 00:00:00|   10|
+-------------------+-----+
|2019-07-01 00:00:00|   12|
+-------------------+-----+

我的df_v:

+-------------------+
|       date        |
+-------------------+
|2019-02-01 00:00:00|
+-------------------+
|2019-04-10 00:00:00|
+-------------------+
|2019-06-14 00:00:00|   
+-------------------+

我想要的是新的df_v:

+-------------------+-------------+
|       date        |   v_value   |
+-------------------+-------------+
|2019-02-01 00:00:00|            0|
+-------------------+-------------+
|2019-04-10 00:00:00|    (0+35) 35|
+-------------------+-------------+
|2019-06-14 00:00:00|(35+40+10) 85|
+-------------------+-------------+

尝试像这样工作:

df=df.withColumn("lead",lead(F.col("start_date"),1).over(Window.orderBy("start_date")))

for r_v in df_v.rdd.collect():
    for r in df.rdd.collect():
        if (r_v.date >= r.start_date) and (r_v.date < r.lead):
            df_v = df_v.withColumn('v_value', 
            ...

最佳答案

这可以通过连接和聚合来完成。

from pyspark.sql.functions import sum,when
#Join
joined_df = df_v.join(df,df.start_date <= df_v.date,'left')
joined_df.show() #View the joined result 
#Aggregation
joined_df \
.groupBy(joined_df.date) \
.agg(sum((when(joined_df.value.isNull(),0).otherwise(joined_df.value))).alias('val')) \
.show()

关于python - pyspark : How to apply to a dataframe value another value depending on date in another dataframe，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58248774/

上一篇：python - 从单个模板中的两个 Django 模型检索记录

下一篇：python - Keras 应用程序 - imagenet 上的 VGG16 低精度

相关文章：

java - 计算 Apache Spark DStream 中的元素

python - Google BigQuery WRITE_TRUNCATE 删除所有数据

python - 如何从文件中提取非常大的 HDF5 数据集并写入另一个文件？

python - 使用 Pandas 重命名数据框列中的元素

Python-定义一个将数据帧作为输入的函数

python - 本地化数据框中的行

java - 在 Spark 中查找数据的最佳选择

python - 用作外键时如何更改 Django Admin 中的用户表示？

python - 找到给定约束的最大索引差异

apache-spark - Spark/Parquet 分区是否保持顺序？