我有一个 pandas 数据框,其中包含名为 user_id 和 login_date 的列,我想获取频繁用户的 ID(即登录多次)及其登录频率。
为此,我尝试了:
frequent_users = df.groupby(['login_date', 'user_id']).agg({"user_id": lambda x: x.count()})
结果是:
2011-01-17
556 1
456 1
958 1
374 2
2011-01-18
789 1
434 4
654 1
问题是,如何删除或过滤掉频率为 1 的所有条目?
编辑:
这是一个例子:
login_dates = ['2011-01-17', '2011-01-17', '2011-01-17', '2011-01-17', '2011-01-17', '2011-01-18', '2011-01-18','2011-01-18','2011-01-18', '2011-01-18', '2011-01-18']
user_id =[556,456,958,347,347,789,434,434,434,434,654]
df = DataFrame({'login_date': login_dates, 'user_id': user_id})
frequent_users = df.groupby(['login_date', 'user_id']).agg({"user_id": lambda x: x.count()})
最佳答案
我认为在这里使用 apply 可能更简单:
# instead of lambda x: x.count()
def count_more_than_one(x):
c = x.value_counts()
return c[c > 1]
In [11]: df.groupby(['login_date'])['user_id'].apply(count_more_than_one)
Out[11]:
login_date
2011-01-17 347 2
2011-01-18 434 4
dtype: int64
In [12]: df.groupby(['login_date'])['user_id'].apply(count_more_than_one).unstack(1)
Out[12]:
347 434
login_date
2011-01-17 2 NaN
2011-01-18 NaN 4
关于python - 在 pandas 数据框中查找频繁用户,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21964990/