python - 使用每组上一行的值填充缺失的日期以及重复的条目

标签 python pandas dataframe date

我有以下数据框(示例):

import pandas as pd

data = [['A', '2022-09-01', 2], ['A', '2022-09-02', 1], ['A', '2022-09-04', 3], ['A', '2022-09-06', 2],
        ['A', '2022-09-07', 1], ['A', '2022-09-07', 2], ['A', '2022-09-08', 4], ['A', '2022-09-09', 2],
        ['B', '2022-09-01', 2], ['B', '2022-09-03', 4], ['B', '2022-09-04', 2], ['B', '2022-09-05', 2],
        ['B', '2022-09-07', 1], ['B', '2022-09-08', 3], ['B', '2022-09-10', 2]]
df = pd.DataFrame(data = data, columns = ['group', 'date', 'value'])

df['date'] = pd.to_datetime(df['date'])
df['diff_days'] = (df['date']-df['date'].groupby(df['group']).transform('first')).dt.days

   group       date  value  diff_days
0      A 2022-09-01      2          0
1      A 2022-09-02      1          1
2      A 2022-09-04      3          3
3      A 2022-09-06      2          5
4      A 2022-09-07      1          6
5      A 2022-09-07      2          6
6      A 2022-09-08      4          7
7      A 2022-09-09      2          8
8      B 2022-09-01      2          0
9      B 2022-09-03      4          2
10     B 2022-09-04      2          3
11     B 2022-09-05      2          4
12     B 2022-09-07      1          6
13     B 2022-09-08      3          7
14     B 2022-09-10      2          9

我想用每组上一个日期的值填充缺失的日期。我可以使用此 answer 中的代码,但问题是每个组可能有重复的条目(日期)。返回以下错误:

df['date'] = pd.to_datetime(df['date'])

df = df.set_index(
    ['date', 'group']
).unstack(
    fill_value=-999
).asfreq(
    'D', fill_value=-999
).stack().sort_index(level=1).reset_index()

df.replace(-999, np.nan).ffill()

ValueError: Index contains duplicate entries, cannot reshape

我想要的输出应该是这样的:

data = [['A', '2022-09-01', 2, 0], ['A', '2022-09-02', 1, 1], ['A', '2022-09-03', 1, 1], ['A', '2022-09-04', 3, 3], 
        ['A', '2022-09-05', 3, 3], ['A', '2022-09-06', 2, 5], ['A', '2022-09-07', 1, 6], ['A', '2022-09-07', 2, 6], 
        ['A', '2022-09-08', 4, 7], ['A', '2022-09-09', 2, 8],
        ['B', '2022-09-01', 2, 0], ['B', '2022-09-02', 2, 0], ['B', '2022-09-03', 4, 2], ['B', '2022-09-04', 2, 3], 
        ['B', '2022-09-05', 2, 4], ['B', '2022-09-06', 2, 4], ['B', '2022-09-07', 1, 6], ['B', '2022-09-08', 3, 7], 
        ['B', '2022-09-09', 3, 7], ['B', '2022-09-10', 2, 9]]
df_desired = pd.DataFrame(data = data, columns = ['group', 'date', 'value', ' diff_days'])

   group        date  value   diff_days
0      A  2022-09-01      2           0
1      A  2022-09-02      1           1
2      A  2022-09-03      1           1
3      A  2022-09-04      3           3
4      A  2022-09-05      3           3
5      A  2022-09-06      2           5
6      A  2022-09-07      1           6
7      A  2022-09-07      2           6
8      A  2022-09-08      4           7
9      A  2022-09-09      2           8
10     B  2022-09-01      2           0
11     B  2022-09-02      2           0
12     B  2022-09-03      4           2
13     B  2022-09-04      2           3
14     B  2022-09-05      2           4
15     B  2022-09-06      2           4
16     B  2022-09-07      1           6
17     B  2022-09-08      3           7
18     B  2022-09-09      3           7
19     B  2022-09-10      2           9

一些日期解释:

  • 对于 A 组,缺少日期“2022-09-03”和“2022-09-05”。正如您所看到的,这些获取的是前一个日期的值。
  • 对于 B 组,缺少日期“2022-09-02”、“2022-09-06”和“2022-09-09”。同样对于这些,他们从前一行获取值。

所以我想知道是否有人知道如何填充这些缺失的日期,即使使用 Pandas 每组可能有重复的条目?

最佳答案

解决方案

c = ['group', 'date']
m = df[c].duplicated(keep='last')

s = df[~m].set_index('date').groupby('group').resample('D').ffill()
out = pd.concat([df[m], s.droplevel(0).reset_index()]).sort_values(c)

这是如何工作的?

  • 识别每个日期的重复行
  • 删除重复项并使用前向填充重新采样数据帧
  • 将重复的行与重新采样的行连接起来以获得结果

结果

   group       date  value  diff_days
0      A 2022-09-01      2          0
1      A 2022-09-02      1          1
2      A 2022-09-03      1          1
3      A 2022-09-04      3          3
4      A 2022-09-05      3          3
5      A 2022-09-06      2          5
4      A 2022-09-07      1          6
6      A 2022-09-07      2          6
7      A 2022-09-08      4          7
8      A 2022-09-09      2          8
9      B 2022-09-01      2          0
10     B 2022-09-02      2          0
11     B 2022-09-03      4          2
12     B 2022-09-04      2          3
13     B 2022-09-05      2          4
14     B 2022-09-06      2          4
15     B 2022-09-07      1          6
16     B 2022-09-08      3          7
17     B 2022-09-09      3          7
18     B 2022-09-10      2          9

关于python - 使用每组上一行的值填充缺失的日期以及重复的条目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74038769/

相关文章:

python - Pandas : select row where column A does not begin with column B

python - 对这些数据进行聚类的最佳算法是什么

python - 如何使用 pandas 替换单个值中的多个字符?

python - 将带有未知分隔符的 .csv 加载到 Pandas DataFrame 中

python - Pandas 填充缺失的位置并计数

pandas - Dask 从目录递归读取 CSV 文件

python - 如何在 python 中将最多 "similar"字符串从一个列表映射到另一个列表?

Python:动态 "from"导入

Python Pulp 线性规划约束

python - 如何使用重复键在 Pandas 中旋转此数据框?