python - 使用 pandas GroupBy.agg() 对同一列进行多个聚合

标签 python pandas dataframe aggregate pandas-groupby

是否有 pandas 内置的方法可以将两个不同的聚合函数 f1, f2 应用到同一列 df["returns"],而无需调用 agg() 多次?

示例数据框:

import pandas as pd
import datetime as dt
import numpy as np

pd.np.random.seed(0)
df = pd.DataFrame({
         "date"    :  [dt.date(2012, x, 1) for x in range(1, 11)], 
         "returns" :  0.05 * np.random.randn(10), 
         "dummy"   :  np.repeat(1, 10)
}) 

语法错误但直觉上正确的方法是:

# Assume `f1` and `f2` are defined for aggregating.
df.groupby("dummy").agg({"returns": f1, "returns": f2})

显然,Python 不允许重复键。有没有其他方式来表达agg()的输入?也许元组列表 [(column, function)] 会更好,以允许将多个函数应用于同一列?但是 agg() 似乎只接受字典。

除了定义一个仅应用其中两个函数的辅助函数之外,还有其他解决方法吗? (无论如何,这如何与聚合一起工作?)

最佳答案

截至 2022 年 6 月 20 日,以下是公认的聚合做法:

df.groupby('dummy').agg(
    Mean=('returns', np.mean),
    Sum=('returns', np.sum))

pandas 的历史版本包含在首屏下方。

您可以简单地将函数作为列表传递:

In [20]: df.groupby("dummy").agg({"returns": [np.mean, np.sum]})
Out[20]:         
           mean       sum
dummy                    
1      0.036901  0.369012

或作为字典:

In [21]: df.groupby('dummy').agg({'returns':
                                  {'Mean': np.mean, 'Sum': np.sum}})
Out[21]: 
        returns          
           Mean       Sum
dummy                    
1      0.036901  0.369012

关于python - 使用 pandas GroupBy.agg() 对同一列进行多个聚合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12589481/

相关文章:

python-3.x - 如何将 Pandas df 刻度数据重新采样为 5 分钟的 OHLC 数据

python - pandas:根据其他列乘以列

python - 如何在 Keras 中获取图层的类型?

python - 如何使用SQLAlchemy实现内连接?

python - 折叠 Pandas 多索引或在多索引数据帧上运行 OLS 回归

Python:根据列与列表连接列

python - Pandas 将 int 值转换为数据框中的 float

python - Pandas - Case when & default in pandas

python - 计算pandas DataFrame中每组的t检验统计量

python - 获取/设置表格中列的宽度 (PyGTK)