python - 使用 Pandas 标记每组的第 N 行

标签 python pandas dataframe group-by pandas-groupby

我有一个包含客户信息及其购买详细信息的 Dataframe。我正在尝试添加一个新列,以指示同一客户完成的每 3 次购买。

下面是Dataframe

customer_name,bill_no,date
Mark,101,2018-10-01
Scott,102,2018-10-01
Pete,103,2018-10-02
Mark,104,2018-10-02
Mark,105,2018-10-04
Scott,106,2018-10-21
Julie,107,2018-10-03
Kevin,108,2018-10-07
Steve,109,2018-10-02
Mark,110,2018-10-06
Mark,111,2018-10-02
Mark,112,2018-10-05
Mark,113,2018-10-05

我写信是为了过滤同一客户完成的每 3 次购买。所以在这种情况下,我想为下面的 bill_no 添加一个标志

Mark,105,2018-10-04
Mark,112,2018-10-05

基本上是为同一客户生成 3 的倍数账单。

最佳答案

使用 groupby.cumcount :

n = 3
df['flag'] = df.groupby('customer_name').cumcount() + 1
df['flag'] = ((df['flag'] % n) == 0).astype(int)

print(df)
   customer_name  bill_no        date  flag
0           Mark      101  2018-10-01     0
1          Scott      102  2018-10-01     0
2           Pete      103  2018-10-02     0
3           Mark      104  2018-10-02     0
4           Mark      105  2018-10-04     1
5          Scott      106  2018-10-21     0
6          Julie      107  2018-10-03     0
7          Kevin      108  2018-10-07     0
8          Steve      109  2018-10-02     0
9           Mark      110  2018-10-06     0
10          Mark      111  2018-10-02     0
11          Mark      112  2018-10-05     1
12          Mark      113  2018-10-05     0

关于python - 使用 Pandas 标记每组的第 N 行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53813918/

相关文章:

python - 你如何在 Pandas 中将两个不同命名的列连接在一起?

python - Pandas 中的简单列分割

r - 使用 R 将制表符 delim 文件合并为单个文件

python - Pandas read_table() 有大小限制吗?

python - Django:自定义中间件导致 NoneType 错误

python - Flask-security 无法与具有多个工作人员的 Gunicorn 一起使用吗?

python - 使用pandas进行回归,报错: cannot concatenate 'str' and 'float' objects

python - Pandas DataFrame : most data in columns are 'float' , 我想删除 'str' 的行

python - 查找另一个字符串后面的第一个匹配项,python regex multiline

python - 功能非常慢