python - 如何在 python pandas 的同一列上进行分组并计算唯一值和某些值的计数作为聚合?

标签 python mysql pandas numpy

我的问题与我之前的 Question 有关但它是不同的。所以我要问新问题。

在上面的问题中,请参阅@jezrael 的回答。

df = pd.DataFrame({'col1':[1,1,1],
                   'col2':[4,4,6],
                   'col3':[7,7,9],
                   'col4':[3,3,5]})

print (df)
   col1  col2  col3  col4
0     1     4     7     3
1     1     4     7     3
2     1     6     9     5

df1 = df.groupby(['col1','col2']).agg({'col3':'size','col4':'nunique'})
df1['result_col'] = df1['col3'].div(df1['col4'])
print (df1)
           col4  col3  result_col
col1 col2                        
1    4        1     2         2.0
     6        1     1         1.0

现在我想计算 col4 的特定值。假设我还想在同一个查询中计算 col4 == 3

df.groupby(['col1','col2']).agg({'col3':'size','col4':'nunique'}) ... + count(col4=='3')

如何在上面的同一个查询中执行此操作我已经尝试过以下但没有得到解决方案。

df.groupby(['col1','col2']).agg({'col3':'size','col4':'nunique','col4':'x: lambda x[x == 7].count()'})

最佳答案

通过提前将 col4==3 作为一列进行一些预处理。然后使用聚合

df.assign(result_col=df.col4.eq(3).astype(int)).groupby(
    ['col1', 'col2']
).agg(dict(col3='size', col4='nunique', result_col='sum'))

           col3  result_col  col4
col1 col2                        
1    4        2           2     1
     6        1           0     1

旧答案

g = df.groupby(['col1', 'col2'])
g.agg({'col3':'size','col4': 'nunique'}).assign(
    result_col=g.col4.apply(lambda x: x.eq(3).sum()))

           col3  col4  result_col
col1 col2                        
1    4        2     1           2
     6        1     1           0

稍微重新排列

g = df.groupby(['col1', 'col2'])
final_df = g.agg({'col3':'size','col4': 'nunique'})
final_df.insert(1, 'result_col', g.col4.apply(lambda x: x.eq(3).sum()))
final_df

           col3  result_col  col4
col1 col2                        
1    4        2           2     1
     6        1           0     1

关于python - 如何在 python pandas 的同一列上进行分组并计算唯一值和某些值的计数作为聚合?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42061323/

相关文章:

python - 在字符串中连续添加数字

python - 使用 numpy.where 防止越界

mysql - 查询 MySQL 的问题

mysql - 计数并拆分到mysql中

python - 在 Pandas DF 的不同列中计算运行总计

python - 如何在 Pandas 中将字节对象类型转换为日期时间

python - Python 3.1 中的 GIL

android - 构建安卓内核失败

php - MySQL查询错误问题

python pandas基于2个键合并数据