python Pandas 调用 groupby.agg 中的复杂函数

Below is my dataframe

    Txn_Key Send_Agent           Send_Time            Pay_Time  Send_Amount  \
0         NaN  ANO080012 2012-05-31 02:25:00 2012-05-31 21:43:00       490.00
1         NaN  AUK359401 2012-05-31 11:25:00 2012-05-31 11:57:00       616.16
2         NaN  ACL000105 2012-05-31 13:07:00 2012-05-31 17:36:00       193.78
3         NaN  AED420319 2012-05-31 10:50:00 2012-05-31 11:34:00       999.43
4         NaN  ARA030210 2012-05-30 12:14:00 2012-05-31 04:16:00       433.29
5         NaN  AJ5020114 2012-05-31 02:37:00 2012-05-31 04:31:00       378.00
6         NaN  A11171047 2012-05-31 09:39:00 2012-05-31 10:08:00       865.34
  Pay_Amount        MTCN      Send_Phone  Refund_Flag       time_diff
0         475.68  9323625903        97549829          NaN 0 days 19:18:00
1         600.87  3545067820    440000000000          NaN 0 days 00:32:00
2         185.21  1453132764            0511          NaN 0 days 04:29:00
3         963.04  4509062067    971566016900          NaN 0 days 00:44:00
4         423.75  6898279087             144          NaN 0 days 16:02:00
5         377.99  5170985243    963954932506          NaN 0 days 01:54:00
6         833.89  5352719100      0644798854          NaN 0 days 00:29:00

因此，当下一行的 Send_Amount 相同时，我需要一个计数。使用 lambda 进行 groupby apply 效果非常好:

txn1 = txns.loc[:,['Send_Agent','Send_Amount']]
 Send_repeat_count =  txn1.groupby('Send_Agent').apply(lambda txn1 : (txn1.Send_Amount.shift() == txn1.Send_Amount).cumsum()

...: )

但是类似的 lambda 函数在 groupby.agg 中不起作用。

grouped=txn.groupby('Send_Agent')

x=grouped.agg({'Send_Amount':'mean','Pay_Amount':'mean','time_diff':'min','MTCN':'size','Send_Phone':'nunique','Refund_Flag':'count','Send_Amount':'lambda txn1 : (txn1.Send_Amount.shift() == txn1.Send_Amount).cumsum()'})

AttributeError: 'Series' object has no attribute 'Send_Amount'

因此，我编写了一个单独的函数来执行相同的操作，并在我的 groupby.agg 中调用它

 def repeat_count(x):
if x==x.shift():
 ....:         cumsum()


x = grouped.agg({'Send_Amount':'mean','Pay_Amount':'mean','time_diff':'min','MTCN':'size','Send_Phone':'nunique','Refund_Flag':'count','Send_Amount':repeat_count(x)})

     ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

如果 cumsum 可以与 group by 一起正常工作。请应用为什么它不能在函数内部工作。

最佳答案

一般来说，Send_Agent列将包含重复项(否则，按 Send_Agent 分组就没有意义)。此外，(x==x.shift()).cumsum()将返回一个系列，其中的行数与每个 Send_Agent 中的重复项相同。团体。

df.groupby(...).agg(func)要求func返回一个标量(例如 float )。 func不允许返回系列。 (相反，当使用 func 时，Series 可以返回 DataFrame 甚至 df.groupby(...).apply(func)。)

<小时/>

如果您想计算一组中相等的相邻行的数量，您可以使用 sum()而不是cumsum() 。例如，

import numpy as np
import pandas as pd
pd.options.display.width = 1000
nan = np.nan
txn = pd.DataFrame(
    {'MTCN': [0, 9323625903, 3545067820, 1453132764, 4509062067, 6898279087, 5170985243, 5352719100], 
     'Pay_Amount': [1, 475.68, 600.87, 185.21, 963.04, 423.75, 377.99, 833.89],
     'Pay_Time': ['2012-05-31 10:08:00', '2012-05-31 21:43:00', '2012-05-31 11:57:00', '2012-05-31 17:36:00', 
                  '2012-05-31 11:34:00', '2012-05-31 04:16:00', '2012-05-31 04:31:00', 
                  '2012-05-31 10:08:00'], 
     'Refund_Flag': [nan, nan, nan, nan, nan, nan, nan, nan], 
     'Send_Amount': [865.34, 490.0, 616.16, 193.78, 999.43, 433.29, 378.0, 865.34],
     'Send_Phone': [3, 97549829, 440000000000, 511, 971566016900, 144, 963954932506, 644798854],
     'Send_Time': ['2012-05-31 09:39:00', '2012-05-31 02:25:00', '2012-05-31 11:25:00', '2012-05-31 13:07:00', 
                   '2012-05-31 10:50:00', '2012-05-30 12:14:00', '2012-05-31 02:37:00', 
                   '2012-05-31 09:39:00'], 
     'Txn_Key': [nan, nan, nan, nan, nan, nan, nan, nan],
     'Send_Agent': ['A11171047', 'ANO080012', 'AUK359401', 'ACL000105', 'AED420319', 
                    'ARA030210', 'AJ5020114', 'A11171047'], 
     'time_diff': ['0 days 00:29:00', '0 days 19:18:00', '0 days 00:32:00', '0 days 04:29:00', 
                   '0 days 00:44:00', '0 days 16:02:00', '0 days 01:54:00', 
                   '0 days 00:29:00', ]} )
txn['time_diff'] = pd.to_timedelta(txn['time_diff']) 

grouped = txn.groupby('Send_Agent')

def repeat_count(s):
    return (s.shift() == s).sum()

result = grouped.agg(
    {'Pay_Amount':'mean',
     'time_diff':'min',
     'MTCN':'size',
     'Send_Phone':'nunique',
     'Refund_Flag':'count',
     'Send_Amount': ['mean', repeat_count]})
print(result)

产量

           Refund_Flag       time_diff Send_Phone MTCN Send_Amount              Pay_Amount
                 count             min    nunique size        mean repeat_count       mean
Send_Agent                                                                                
A11171047            0   1740000000000          2    2      865.34          1.0    417.445
ACL000105            0  16140000000000          1    1      193.78          0.0    185.210
AED420319            0   2640000000000          1    1      999.43          0.0    963.040
AJ5020114            0   6840000000000          1    1      378.00          0.0    377.990
ANO080012            0  69480000000000          1    1      490.00          0.0    475.680
ARA030210            0  57720000000000          1    1      433.29          0.0    423.750
AUK359401            0   1920000000000          1    1      616.16          0.0    600.870

(我添加了额外的行，以便 repeat_count 并不总是返回 0。)

<小时/>

当您使用DataFrame.groupby(...).apply(func)时，传递给 func 的对象是数据框。因此，

txn1.groupby('Send_Agent').apply(
    lambda txn1 : (txn1.Send_Amount.shift() == txn1.Send_Amount).cumsum())

之所以有效，是因为 txn1里面lambda是一个带有 Send_Amount 的 DataFrame专栏。

<小时/>

相反，当您使用 DataFrame.groupby(...).agg({'col': func}) 时，传递给 func 的对象是系列，其值来自 col 指定的列。因此

x = grouped.agg({'Send_Amount':'mean','Pay_Amount':'mean','time_diff':'min','MTCN':'size','Send_Phone':'nunique','Refund_Flag':'count','Send_Amount':lambda txn1 : (txn1.Send_Amount.shift() == txn1.Send_Amount).cumsum()})

筹集AttributeError: 'Series' object has no attribute 'Send_Amount'因为系列传递到 lambda函数(并绑定(bind)到变量 txn1 )没有 Send_Amount属性。

<小时/>

如果您使用类似 repeat_count 的内容:

def repeat_count(x):
    if x==x.shift():
        return x.cumsum()

然后if x==x.shift()加薪

ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

因为x==x.shift()是一个系列并且 if expression原因expression在 bool 上下文中进行评估。即expression.__bool__()被叫。 __bool__必须返回 True 或 False 或引发异常。因此，对于if x==x.shift()为了有意义，(x==x.shift()).__bool__()必须返回 True 或 False。

Series.__bool__()总是提出ValueError上面是因为 Pandas(按照设计)不会猜测当 Series 中的所有值都为 True 或任何值都为 True 时，或者当系列仅仅是非空的，等等... ValueError消息为您指明了正确的方向。通常，通过调用 (x==x.shift()).any() 明确您想要什么 bool 值来解决问题。或(x==x.shift()).all()等

<小时/>

关于性能的说明:一般情况下，使用 groupby/agg使用自定义函数的性能不如 groupby/agg使用像 count 这样的内置方法或sum 。因此，找出一种方法(如果可能的话)用内置方法来表达计算通常是值得的。在这种情况下，您可以对整个 DataFrame 进行预备计算，然后您可以使用 groupby/agg/sum :

txn = txn.sort_values(by='Send_Agent')
txn['repeat'] = ((txn['Send_Agent'].shift() == txn['Send_Agent']) 
                 & (txn['Send_Agent'].shift() == txn['Send_Agent']))

grouped = txn.groupby('Send_Agent')
result = grouped.agg(
    {'Pay_Amount':'mean',
     'time_diff':'min',
     'MTCN':'size',
     'Send_Phone':'nunique',
     'Refund_Flag':'count',
     'Send_Amount': 'mean',
     'repeat':'sum'})
print(result)

关于python Pandas 调用 groupby.agg 中的复杂函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37420042/

python Pandas 调用 groupby.agg 中的复杂函数

上一篇：python - 棘手的 Python 3.5 CSV 难题 - 从 CSV 文件高效创建 100 个列表，无需每次都引用条件

下一篇：python - spyne SOAP Web 服务中的多个命名空间