python - 数据错误 : No numeric types using mean aggregate function but not sum?

标签 python pandas pandas-groupby

我想知道是否有人可以使用 agg() 帮助解释以下行为

import numpy as np
import pandas as pd
import string

初始化数据框

df = pd.DataFrame(data=[list(string.ascii_lowercase)[0:5]*2,list(range(1,11)),list(range(11,21))]).T
df.columns = columns=['g','c1','c2']

df.sort_values(['g']).head(5)

g   c1  c2
0   a   1   11
5   a   6   16
1   b   2   12
6   b   7   17
2   c   3   13

例如,我在按 g 进行分组时对 c1 和 c2 进行求和和平均

无数据错误场景:

f = { 'c1' : lambda g: df.loc[g.index].c2.sum() + g.sum(), 'c2' : lambda g: (df.loc[g.index].c1.sum() + g.sum())/(g.count()+df.loc[g.index].c1.count())} 
df = df.groupby('g',as_index=False).agg(f)

数据类型错误:

rnm_cols = dict(sum='Sum', mean='Mean') #, std='Std')
df = df.set_index(['g']).stack().groupby('g').agg(rnm_cols.keys()).rename(columns=rnm_cols)

我收到 -> DataError: No numeric types to aggregate

我知道如果我使用下面的方法初始化我的数据框,我可以避免这个问题:

df[['c1','c2']] = df[['c1','c2']].apply(lambda x: pd.to_numeric(x, errors='coerce'))

However I'm trying to understand why aggregating with the mean function provides such errors ?

最佳答案

这是由于 GroupBy 对象处理不同聚合方法的方式所致。事实上,summean 的处理方式不同(详情请见下文)。

但最重要的是,mean 仅适用于您的数据框中不存在的数字类型:

>>> df.dtypes
g     object
c1    object
c2    object
dtype: object

通过应用 pd.to_numeric,您可以将它们转换为数字类型,并且 agg 可以正常工作。

但让我们仔细看看:

GroupBy.mean

此函数调用调度到 self._cython_agg_general它检查数字类型,如果没有找到任何类型(您的示例就是这种情况),它会引发 DataError .尽管对 self._cython_agg_general 的调用包含在 try/except 中,以防出现 GroupByError 它只是重新引发和 DataError 继承自 GroupByError。因此异常(exception)。

GroupBy.sum

这个函数以不同的方式定义,即here (通过 this function )。 wrapper function类似地分派(dispatch)给 self._cython_agg_general,包装在 try/except 中,但它没有为 GroupByError 添加特定的子句(不知道为什么虽然;也许这对开发人员来说是个好问题,这样他们就可以统一 GroupBy 对象的行为)。因为 self._cython_agg_general 再次引发 DataError 它将进入 except Exception返回到 self.aggregate 的子句.从这里你可以通过十几个额外的函数调用来追踪它,但最后它只会添加该系列的单个项目(它们存储为 object 但在 Python 中添加是没有问题的,因为它们实际上是 int)。

总结

所以这一切都归结为两个聚合函数处理异常的不同方式; meanDataError 上重新引发,但 sum 没有。 “为什么”对我来说仍然是一个悬而未决的问题。

另见

关于python - 数据错误 : No numeric types using mean aggregate function but not sum?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50091321/

相关文章:

python 2.7批量zip文件提取到目标目录

python - 如何在 scikit-learn 下绘制拟合高斯混合模型的概率密度函数?

Python Pandas Groupby 计数错误

python - Pandas 数据框到元组列表的字典

python - 创建一个每 n 个周期激活一次的 Keras 回调

python - PyQt4:QPixMap 信号?

python - Pandas 数据帧 : Listing amount of people per gender in each major

python - 如何从数据框中获取每个月的最后一天并从数据框中删除其余日期?

python - 如何在Jupyter中使用pandas的 `to_latex`方法获取可以直接在LaTeX中使用的代码?

pandas-groupby - xarray数据集分组的分位数方法