python - 填充 DataFrame MultiIndex 级别 1 中的空白,每个级别 0 的情况不同

标签 python pandas dataframe multi-index

我有一个 MultiIndex DataFrame,其第 1 级上有间隙日期值,如下所示:

np.random.seed(456)
j = [(a, b) for a in ['A','B','C'] for b in random.sample(pd.date_range('2018-01-01', periods=100, freq='D').tolist(), 5)]
j.sort()
i = pd.MultiIndex.from_tuples(j, names=['Name','Date'])
df = pd.DataFrame(np.random.random_integers(0,100,15), i, columns=['Vals'])
# print(df):
                 Vals
Name Date            
A    2018-01-01    27
     2018-01-08    43
     2018-03-26    89
     2018-03-29    42
     2018-04-01    28
B    2018-01-02    79
     2018-01-26    60
     2018-02-18    45
     2018-03-11    37
     2018-03-23    92
C    2018-03-17    39
     2018-03-20    81
     2018-03-21    11
     2018-03-27    77
     2018-04-08    69

对于每个 0 级值,我想用该 0 级的最小日期值和最大日期值之间的每个日历日期填充索引级别 1。。 ( This Q&A 解决了使用为所有 0 级值设置相同值来填充级别 1 的情况。)

例如,对于 subset = df.loc['A'] 我想插入行,以便 subset.index.values == pd.date_range(subset.index.values. min()、subset.index.values.max()).values。即,生成的 DataFrame 如下所示:

                 Vals
Name Date            
A    2018-01-01    27
     2018-01-02   NaN
     2018-01-03   NaN
     2018-01-04   NaN
     2018-01-05   NaN
     2018-01-06   NaN
     2018-01-07   NaN
     2018-01-08    43
     2018-01-09   NaN
...

有没有一种 Pandas 方法可以实现这一点?

(我能想到的最好办法是低效且迭代地为每个 0 级值 append 新的 DataFrame。或者类似地迭代构建索引值列表,然后使用原始 DataFrame pandas.concat 它们。)

最佳答案

您可以使用asfreq

df.groupby(level=0).apply(lambda x: x.reset_index(level=0, drop=True).asfreq("D"))

关于python - 填充 DataFrame MultiIndex 级别 1 中的空白,每个级别 0 的情况不同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49139953/

相关文章:

python - Pandas 数据框与系列的列乘法(索引不匹配)

r - 如何操作data.table中的data.frame

python - 我可以在使用 aws_cdk 创建 lambda 后立即调用它吗?

python - 根据 Pandas 中的字符串用 NaN 替换列

python - 检索所有 x 坐标的优雅方式

python - Pandas - 用相应的 id 列值填充缺失的列值

python - 带有 2 行标题并导出到 csv 的 pandas 数据框

python - 根据数据框中的现有时间列创建新列

python - 如何按列分组并在保留其他列的同时找到最大值?

python - 从需要用户输入的 python 运行 linux 命令