我有一个看起来像这样的 Pandas 数据框:
df = pd.DataFrame({ 'ID' : [2,2,2,2,2,4,4,3,3,3,6] , 'count' : [20,43,45,50,15,65,35,15,15,14,30]})
df
ID count
0 2 20
1 2 43
2 2 45
3 2 50
4 2 15
5 4 65
6 4 35
7 3 15
8 3 15
9 3 14
10 6 30
我想创建一个具有以下输出的数据透视表:
ID 1 2 3 4 5
2 20 43 45 50 15
4 65 35 0 0 0
3 15 15 14 0 0
6 30 0 0 0 0
我想对数据框使用数据透视函数 (df_pivot = df.pivot(index='ID', columns=..., values='count') 但我缺少列索引列表。我想应用一个对 df 的 lambda 函数生成一个带有缺失列名的附加列,但我有 800M ID,并且对分组数据框的应用函数非常慢。有没有你可能知道的快速方法?
最佳答案
我会为每个组定义一个子索引:
df['subindex'] = df.groupby('ID').cumcount() + 1
然后应用 pivot 方法将新的 subindex
设置为列并用 0 填充 NaN
值:
d = pd.pivot_table(df,index='ID',columns='subindex',values='count').fillna(0)
返回:
subindex 1 2 3 4 5
ID
2 20 43 45 50 15
3 15 15 14 0 0
4 65 35 0 0 0
6 30 0 0 0 0
希望对您有所帮助。
关于python - 没有应用功能的 Pandas 数据框的数据透视表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32651084/