python - Pandas Groupby 与 Lambda 和算法

给定这个数据框:

import pandas as pd
import jenkspy
f = pd.DataFrame({'BreakGroup':['A','A','A','A','A','A','B','B','B','B','B'],
                 'Final':[1,2,3,4,5,6,10,20,30,40,50]})
    BreakGroup  Final
0         A     1
1         A     2
2         A     3
3         A     4
4         A     5
5         A     6
6         B     10
7         B     20
8         B     30
9         B     40
10        B     50

我想使用 jenkspy 根据 4 个组(类)的自然中断来识别组，“BreakGroup”组中“Final”中的每个值都属于该组。

我是这样开始的:

jenks=lambda x: jenkspy.jenks_breaks(f['Final'].tolist(),nb_class=4)
f['Group']=f.groupby(['BreakGroup'])['BreakGroup'].transform(jenks)

...结果是:

BreakGroup
A    [1.0, 10.0, 20.0, 30.0, 50.0]
B    [1.0, 10.0, 20.0, 30.0, 50.0]
Name: BreakGroup, dtype: object

您可能已经猜到，这里的第一个问题是它将 lambda 函数应用于“最终”分数的整个列，而不仅仅是属于 Groupby 中每个组的那些。第二个问题是我需要一个列来指定正确的组(类)成员资格，大概是通过使用转换而不是应用。

然后我尝试了这个:

jenks=lambda x: jenkspy.jenks_breaks(f['Final'].loc[f['BreakGroup']==x].tolist(),nb_class=4)
f['Group']=f.groupby(['BreakGroup'])['BreakGroup'].transform(jenks)

...但很快就被打退了:

ValueError: Can only compare identically-labeled Series objects

更新:

这是期望的结果。 “结果”列包含每个组“BreakGroup”的“最终”相应值的组上限:

    BreakGroup  Final   Result
0             A     1   2
1             A     2   3
2             A     3   4
3             A     4   4
4             A     5   6
5             A     6   6
6             B     10  20
7             B     20  30
8             B     30  40
9             B     40  50
10            B     50  50

提前致谢!

我的应用程序基于已接受的解决方案略作修改:

f.sort_values('BreakGroup',inplace=True)
f.reset_index(drop=True,inplace=True)
jenks = lambda x: jenkspy.jenks_breaks(x['Final'].tolist(),nb_class=4)
g = f.set_index('BreakGroup')
g['Groups'] = f.groupby(['BreakGroup']).apply(jenks)
g.reset_index(inplace=True)
groups= lambda x: [gp for gp in x['Groups']]
#'final' value should be > lower and <= upper
upper = lambda x: [gp for gp in x['Groups'] if gp >= x['Final']][0] # or gp == max(x['Groups'])
lower= lambda x: [gp for gp in x['Groups'] if gp < x['Final'] or gp == min(x['Groups'])][-1]
GroupIndex= lambda x: [x['Groups'].index(gp) for gp in x['Groups'] if gp < x['Final'] or gp == min(x['Groups'])][-1]
f['Groups']=g.apply(groups, axis=1)
f['Upper'] = g.apply(upper, axis=1)
f['Lower'] = g.apply(lower, axis=1)
f['Group'] = g.apply(GroupIndex, axis=1)
f['Group']=f['Group']+1

组边界列表
与“最终”值相关的上限
与“最终”值相关的下边界
根据评论中注明的逻辑，“最终”值所属的组。

最佳答案

您将 jenks 定义为根据 x 的常量，您的 lambda 变量，因此它不依赖于您使用 apply< 提供的内容 或 转换。将 jenks 的定义更改为

jenks = lambda x: jenkspy.jenks_breaks(x['Final'].tolist(),nb_class=4)

给予

In [315]: f.groupby(['BreakGroup']).apply(jenks)
Out[315]: 
BreakGroup
A         [1.0, 2.0, 3.0, 4.0, 6.0]
B    [10.0, 20.0, 30.0, 40.0, 50.0]
dtype: object

继续这个重新定义，

g = f.set_index('BreakGroup')
g['Groups'] = f.groupby(['BreakGroup']).apply(jenks)
g.reset_index(inplace=True)
group = lambda x: [gp for gp in x['Groups'] if gp > x['Final'] or gp == max(x['Groups'])][0]
f['Result'] = g.apply(group, axis=1)

给予

In [323]: f
Out[323]: 
   BreakGroup  Final  Result
0           A      1     2.0
1           A      2     3.0
2           A      3     4.0
3           A      4     6.0
4           A      5     6.0
5           A      6     6.0
6           B     10    20.0
7           B     20    30.0
8           B     30    40.0
9           B     40    50.0
10          B     50    50.0

关于python - Pandas Groupby 与 Lambda 和算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44267971/

python - Pandas Groupby 与 Lambda 和算法

上一篇：python - 如何过滤掉具有特定前缀和后缀(扩展名)的文件名？

下一篇：python - 机器学习 - 测试集的特征少于训练集