Python Pandas groupby 应用 lambda 参数

标签 python pandas lambda pandas-groupby

在关于 Python Pandas groupby 的类(class)视频中(在 Python 数据科学简介类(class)中)给出了以下示例:

df.groupby('Category').apply(lambda df,a,b: sum(df[a] * df[b]), 'Weight (oz.)', 'Quantity')

其中 df 是一个 DataFrame,lambda 用于计算两列的总和。 如果我理解正确,调用 apply 函数的 groupby 对象(由 groupby 返回)是一系列元组,由分组依据的索引和作为特定分组的 DataFrame 的一部分组成。

我不明白的是 lambda 的使用方式:

指定了三个参数 (lambda df,a,b),但只有两个参数被显式传递('Weight (oz.)' 和 'Quantity')。解释器如何知道参数“a”和“b”是指定为参数的参数,并且 df 是“按原样”使用的?

我查看了文档,但找不到针对此类特定示例的明确答案。我认为这必须与 df 在范围内做一些事情,但找不到支持和详细说明该想法的信息。

最佳答案

apply 方法本身将 groupby 对象的每个“组”作为函数的第一个参数传递。所以它知道根据位置将“重量”和“数量”关联到 ab。 (例如,如果算上第一个“组”参数,它们就是第二个和第三个参数。

df = pd.DataFrame(np.random.randint(0,11,(10,3)), columns = ['num1','num2','num3'])
df['category'] = ['a','a','a','b','b','b','b','c','c','c']
df = df[['category','num1','num2','num3']]
df

  category  num1  num2  num3
0        a     2     5     2
1        a     5     5     2
2        a     7     3     4
3        b    10     9     1
4        b     4     7     6
5        b     0     5     2
6        b     7     7     5
7        c     2     2     1
8        c     4     3     2
9        c     1     4     6

gb = df.groupby('category')

隐式参数是每个“组”或在本例中是每个类别

gb.apply(lambda grp: grp.sum()) 

“grp”是 lambda 函数的第一个参数 请注意,我不必为它指定任何内容,因为它已经自动被视为 groupby 对象的每一组

         category  num1  num2  num3
category                           
a             aaa    14    13     8
b            bbbb    21    28    14
c             ccc     7     9     9

所以 apply 遍历每一个并执行求和操作

print(gb.groups)
{'a': Int64Index([0, 1, 2], dtype='int64'), 'b': Int64Index([3, 4, 5, 6], dtype='int64'), 'c': Int64Index([7, 8, 9], dtype='int64')}

print('1st GROUP:\n', df.loc[gb.groups['a']])
1st GROUP:
  category  num1  num2  num3
0        a     2     5     2
1        a     5     5     2
2        a     7     3     4    


print('SUM of 1st group:\n', df.loc[gb.groups['a']].sum())

SUM of 1st group:
category    aaa
num1         14
num2         13
num3          8
dtype: object

注意这与我们之前操作的第一行有何相同

所以 apply 是隐式将每个组作为第一个参数传递给函数参数。

来自docs

GroupBy.apply(func, *args, **kwargs)

args, kwargs : tuple and dict

Optional positional and keyword arguments to pass to func

在“*args”中传递的附加参数在隐式组参数之后传递。

所以使用你的代码

gb.apply(lambda df,a,b: sum(df[a] * df[b]), 'num1', 'num2')

category
a     56
b    167
c     20
dtype: int64

此处 'num1' 和 'num2' 作为 附加 参数传递给 lambda 函数的每次调用

所以 apply 遍历每一个并执行你的 lambda 操作

# copy and paste your lambda function
fun = lambda df,a,b: sum(df[a] * df[b])

print(gb.groups)
{'a': Int64Index([0, 1, 2], dtype='int64'), 'b': Int64Index([3, 4, 5, 6], dtype='int64'), 'c': Int64Index([7, 8, 9], dtype='int64')}

print('1st GROUP:\n', df.loc[gb.groups['a']])

1st GROUP:
   category  num1  num2  num3
0        a     2     5     2
1        a     5     5     2
2        a     7     3     4

print('Output of 1st group for function "fun":\n', 
fun(df.loc[gb.groups['a']], 'num1','num2'))

Output of 1st group for function "fun":
56

关于Python Pandas groupby 应用 lambda 参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47551251/

相关文章:

python - 使用 Python 精确替换内容中的单词

python - 如何根据重复值汇总列?

python - 有没有办法在 python 中读取 Stata 标签?

使用 LambdaMetafactory 的 Java 访问 bean 方法

python - 如何使用 Python 在 Windows 上创建带有嵌入式斜线的文件?

Python Pandas 如果列 id 值更大

python - 当你有一个名为 max 的变量时使用 Python 的 max 函数?

python - 连接数据帧单标签行选择返回多行

lambda - 有/没有捕获变量的 lambda 之间的签名差异?

java - 来自 Lambda 表达式的有效 void 返回语句(示例 : Runnable)