给定这个数据框:
import pandas as pd
import jenkspy
f = pd.DataFrame({'BreakGroup':['A','A','A','A','A','A','B','B','B','B','B'],
'Final':[1,2,3,4,5,6,10,20,30,40,50]})
BreakGroup Final
0 A 1
1 A 2
2 A 3
3 A 4
4 A 5
5 A 6
6 B 10
7 B 20
8 B 30
9 B 40
10 B 50
我想使用 jenkspy 根据 4 个组(类)的自然中断来识别组,“BreakGroup”组中“Final”中的每个值都属于该组。
我是这样开始的:
jenks=lambda x: jenkspy.jenks_breaks(f['Final'].tolist(),nb_class=4)
f['Group']=f.groupby(['BreakGroup'])['BreakGroup'].transform(jenks)
...结果是:
BreakGroup
A [1.0, 10.0, 20.0, 30.0, 50.0]
B [1.0, 10.0, 20.0, 30.0, 50.0]
Name: BreakGroup, dtype: object
您可能已经猜到,这里的第一个问题是它将 lambda 函数应用于“最终”分数的整个列,而不仅仅是属于 Groupby 中每个组的那些。第二个问题是我需要一个列来指定正确的组(类)成员资格,大概是通过使用转换而不是应用。
然后我尝试了这个:
jenks=lambda x: jenkspy.jenks_breaks(f['Final'].loc[f['BreakGroup']==x].tolist(),nb_class=4)
f['Group']=f.groupby(['BreakGroup'])['BreakGroup'].transform(jenks)
...但很快就被打退了:
ValueError: Can only compare identically-labeled Series objects
更新:
这是期望的结果。 “结果”列包含每个组“BreakGroup”的“最终”相应值的组上限:
BreakGroup Final Result
0 A 1 2
1 A 2 3
2 A 3 4
3 A 4 4
4 A 5 6
5 A 6 6
6 B 10 20
7 B 20 30
8 B 30 40
9 B 40 50
10 B 50 50
提前致谢!
我的应用程序基于已接受的解决方案略作修改:
f.sort_values('BreakGroup',inplace=True)
f.reset_index(drop=True,inplace=True)
jenks = lambda x: jenkspy.jenks_breaks(x['Final'].tolist(),nb_class=4)
g = f.set_index('BreakGroup')
g['Groups'] = f.groupby(['BreakGroup']).apply(jenks)
g.reset_index(inplace=True)
groups= lambda x: [gp for gp in x['Groups']]
#'final' value should be > lower and <= upper
upper = lambda x: [gp for gp in x['Groups'] if gp >= x['Final']][0] # or gp == max(x['Groups'])
lower= lambda x: [gp for gp in x['Groups'] if gp < x['Final'] or gp == min(x['Groups'])][-1]
GroupIndex= lambda x: [x['Groups'].index(gp) for gp in x['Groups'] if gp < x['Final'] or gp == min(x['Groups'])][-1]
f['Groups']=g.apply(groups, axis=1)
f['Upper'] = g.apply(upper, axis=1)
f['Lower'] = g.apply(lower, axis=1)
f['Group'] = g.apply(GroupIndex, axis=1)
f['Group']=f['Group']+1
返回:
组边界列表
与“最终”值相关的上限
与“最终”值相关的下边界
根据评论中注明的逻辑,“最终”值所属的组。
最佳答案
您将 jenks
定义为根据 x
的常量,您的 lambda 变量,因此它不依赖于您使用 apply< 提供的内容
或 转换
。将 jenks
的定义更改为
jenks = lambda x: jenkspy.jenks_breaks(x['Final'].tolist(),nb_class=4)
给予
In [315]: f.groupby(['BreakGroup']).apply(jenks)
Out[315]:
BreakGroup
A [1.0, 2.0, 3.0, 4.0, 6.0]
B [10.0, 20.0, 30.0, 40.0, 50.0]
dtype: object
继续这个重新定义,
g = f.set_index('BreakGroup')
g['Groups'] = f.groupby(['BreakGroup']).apply(jenks)
g.reset_index(inplace=True)
group = lambda x: [gp for gp in x['Groups'] if gp > x['Final'] or gp == max(x['Groups'])][0]
f['Result'] = g.apply(group, axis=1)
给予
In [323]: f
Out[323]:
BreakGroup Final Result
0 A 1 2.0
1 A 2 3.0
2 A 3 4.0
3 A 4 6.0
4 A 5 6.0
5 A 6 6.0
6 B 10 20.0
7 B 20 30.0
8 B 30 40.0
9 B 40 50.0
10 B 50 50.0
关于python - Pandas Groupby 与 Lambda 和算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44267971/