我想计算连续的0
s,如果有0
s,count
连续的数字,并将数字分配给 count
列,如果遇到1
, recount
.
我也尝试了几种方法,但都没有达到我的效果。
我的数据框的示例如下:
import numpy as np
import pandas as pd
np.random.seed(2021)
a = np.random.randint(0, 2, 20)
df = pd.DataFrame(a, columns=['No.'])
print(df)
No.
0 0
1 1
2 1
3 0
4 1
5 0
6 0
7 0
8 1
9 0
10 1
11 1
12 1
13 1
14 0
15 0
16 0
17 0
18 0
19 0
我需要的结果:
No. count
0 0 1
1 1 0
2 1 0
3 0 1
4 1 0
5 0 3
6 0 3
7 0 3
8 1 0
9 0 1
10 1 0
11 1 0
12 1 0
13 1 0
14 0 6
15 0 6
16 0 6
17 0 6
18 0 6
19 0 6
我尝试了以下方法,但都没有达到我的效果。我该怎么办?
groups = df['No.'].ne(0).cumsum()
df['count'] = df['No.'].eq(0).groupby(groups).count()
df['count'] = df['No.'].eq(0).groupby(groups).agg(len)
df['count'] = df['No.'].groupby(groups).agg(len)
df['count'] = df['No.'].groupby(groups).count()
最佳答案
对于您的 groups
变量,首先计算 diff
,以便为包含相同值的每个连续序列分配一个 id
。要获得可分配给原始数据框的相同大小的 count
系列,请使用 transform
而不是 agg
:
df['count'] = 0
groups = df['No.'].diff().ne(0).cumsum()
df.loc[df['No.'] == 0, 'count'] = df['No.'].groupby(groups).transform('size')
df
No. count
0 0 1
1 1 0
2 1 0
3 0 1
4 1 0
5 0 3
6 0 3
7 0 3
8 1 0
9 0 1
10 1 0
11 1 0
12 1 0
13 1 0
14 0 6
15 0 6
16 0 6
17 0 6
18 0 6
19 0 6
关于python - 如何对DataFrame的列进行分类和计数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69503737/