python - 将行附加到 Pandas 中的组

标签 python pandas dataframe

我正在尝试将一些 NaN 行附加到 pandas 数据框中的每个组。本质上,我想将每个组填充为 5 行长。订购很重要。我有:

    Rank id
0   1  a
1   2  a
2   3  a
3   4  a
4   5  a
5   1  c
6   2  c
7   1  e
8   2  e
9   3  e

我要:

    Rank id
0   1    a
1   2    a
2   3    a
3   4    a
4   5    a
5   1    c
6   2    c
7   NaN  c
8   NaN  c
9   NaN  c
10  1    e
11  2    e
12  3    e
13  NaN  e
14  NaN  e

最佳答案

使用pd.crosstab:

df = pd.crosstab(df.Rank, df.ID).iloc[:5].unstack().reset_index()
df.loc[(df[0]==0),'Rank'] = np.nan
del df[0]

输出:

   ID  Rank
0   a   1.0
1   a   2.0
2   a   3.0
3   a   4.0
4   a   5.0
5   c   1.0
6   c   2.0
7   c   NaN
8   c   NaN
9   c   NaN
10  e   1.0
11  e   2.0
12  e   3.0
13  e   NaN
14  e   NaN

另一种方法,假设 df 中的最大组大小恰好为 5。

In [251]: df.groupby('ID').Rank.apply(np.array).apply(pd.Series).stack(dropna=False)
Out[251]: 
ID
a   0    1.0
    1    2.0
    2    3.0
    3    4.0
    4    5.0
c   0    1.0
    1    2.0
    2    NaN
    3    NaN
    4    NaN
e   0    1.0
    1    2.0
    2    3.0
    3    NaN
    4    NaN
dtype: float64

完整解释:

import pandas as pd
import numpy as np

df = pd.read_csv(pd.compat.StringIO("""Rank ID
0   1  a
1   2  a
2   3  a
3   4  a
4   5  a
6   1  c
7   2  c
8   1  e
9   2  e
10  3  e"""), sep=r' +')

df = pd.crosstab(df.Rank, df.ID).iloc[:5].T.stack().reset_index()
df.loc[(df[0]==0),'Rank'] = np.nan
del df[0]

# pd.crosstab(df.Rank, df.ID) produces:

# ID    a  c  e
# Rank
# 1.0   1  1  1
# 2.0   1  1  1
# 3.0   1  0  1
# 4.0   1  0  0
# 5.0   1  0  0

# applying .T.stack().reset_index() yields:

   # ID  Rank  0
# 0   a   1.0  1
# 1   a   2.0  1
# 2   a   3.0  1
# 3   a   4.0  1
# 4   a   5.0  1
# 5   c   1.0  1
# 6   c   2.0  1
# 7   c   3.0  0
# 8   c   4.0  0
# 9   c   5.0  0
# 10  e   1.0  1
# 11  e   2.0  1
# 12  e   3.0  1
# 13  e   4.0  0
# 14  e   5.0  0

# finally, use df[0] to filter df['Rank']

关于python - 将行附加到 Pandas 中的组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50529459/

相关文章:

Python - groupby 上的 Pandas 小计

python - python中这种数据结构的最佳方法是什么?

python - 从 Pandas 数据框中的字符串中删除数字

python-3.x - 使用 1 个数据帧时出现 "Cannot combine the series or dataframe because it comes from a different dataframe"

python - 如何在 pandas 中保存字典的字典(或具有类似功能的东西)?

r - R在数据帧过滤中使用的算法是什么?

r - 在R中转置data.frame并将列之一设置为新转置表的标题的最佳方法是什么?

python - 哪一种是在 Django 模型中使用 Python 类型提示的正确方法?

python - 如何使用 Python Pandas 获取字符串中的第一个和最后一个(可变)字符

R 在数据框中的每个单元格上应用函数