采用以下数据框:
import pandas as pd
df = pd.DataFrame({'group_name': ['A','A','A','B','B','B'],
'timestamp': [4,6,1000,5,8,100],
'condition': [True,True,False,True,False,True]})
我想添加两列:
- 该行在其组内的顺序
- 每组内
条件
列的滚动总和
我知道我可以通过自定义应用来做到这一点,但我想知道是否有人有任何有趣的想法? (当有很多组时,这也很慢。)这是一种解决方案:
def range_within_group(input_df):
df_to_return = input_df.copy()
df_to_return = df_to_return.sort('timestamp')
df_to_return['order_within_group'] = range(len(df_to_return))
df_to_return['rolling_sum_of_condition'] = df_to_return.condition.cumsum()
return df_to_return
df.groupby('group_name').apply(range_within_group).reset_index(drop=True)
最佳答案
Number each item in each group from 0 to the length of that group - 1.
很简单:
>>> gr = df.sort('timestamp').groupby('group_name')
>>> df['order_within_group'] = gr.cumcount()
>>> df['rolling_sum_of_condition'] = gr['condition'].cumsum()
关于python - 如何在 Pandas 中添加 "order within group"列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30744308/