假设我有以下 DataFrame
import numpy as np
import pandas as pd
df = pd.DataFrame(['eggs', np.nan, 'ham', 'eggs', 'spam', 'spam',
'eggs', 'spam', np.nan], columns=['ingredients'])
df['customer'] = (['Badger']*3 + ['Shopkeeper']*3 + ['Pepperpots']*2
+ [np.nan])
df['ordered'] = [1, 1, 0, 0, 1, 0, 1, 0, np.nan]
df.sort_values(['customer', 'ingredients'], inplace=True)
看起来像这样:
ingredients customer ordered
0 eggs Badger 1.0
2 ham Badger 0.0
1 NaN Badger 1.0
6 eggs Pepperpots 1.0
7 spam Pepperpots 0.0
3 eggs Shopkeeper 0.0
4 spam Shopkeeper 1.0
5 spam Shopkeeper 0.0
8 NaN NaN NaN
对于每个客户,我想删除与最后一种成分相对应的行(根据字母顺序)。
例如,应删除索引为 4 和 5 的行,因为它们对应于 Shopkeeper 的最后一个成分。
同样,第 7 行应删除,因为它对应于 Pepperpots 的最后一个成分。
NaN
值应被忽略。
最佳答案
您可以创建一个由分组“最后”成分组成的系列,然后将其过滤掉。请注意,为此目的,NaN
成分不会被删除。
s = df.sort_values('ingredients')\
.groupby('customer')['ingredients']\
.transform('last').sort_index()
df = df[df['ingredients'] != s]
print(df)
ingredients customer ordered
0 eggs Badger 1.0
1 NaN Badger 1.0
3 eggs Shopkeeper 0.0
6 eggs Pepperpots 1.0
8 NaN NaN NaN
使用此解决方案,您可以省略 df.sort_values(['customer', 'ingredients'], inplace=True)
,如 GroupBy
+ transform
如上面实现的那样,按索引对齐。
关于python - 删除每组中最后一个子组对应的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51984993/