我正在对 groupby 数据框执行一系列聚合统计。特别是对于一列 ios_id
,我想要一个计数和一个不同的计数。我不确定如何将其输出到两个名称不同的单独列。截至目前,非重复计数只是覆盖计数。
如何将 ios_id 列的非重复计数和计数输出到两个单独的列?
df_new = df.groupby('video_id').agg({"ios_id": np.count_nonzero,
"ios_id": pd.Series.nunique,
"feed_position": np.average,
"time_watched": np.sum,
"video_length": np.sum}).sort('ios_id', ascending=False)
最佳答案
像这样的东西应该可以工作。请注意 iOS_id 的嵌套字典结构。
df_new = df.groupby('video_id').agg({"ios_id": {"count": "count",
"distinct": "unique"},
"feed_position": np.average,
"time_watched": np.sum,
"video_length": np.sum})
更多详情请引用Naming returned columns in Pandas aggregate function :
关于python - 如何在一个 groupby 列上执行聚合选项,给出两列输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30548195/