我有以下数据框:
df=pd.DataFrame({'cluster':[1,1,1,2,8],'ssn':['123','','','567','123']})
我想将记录与匹配的 ssns 链接起来。在本例中,我想链接集群 1 和 8。预期输出如下:
cluster ssn
0 1 123
1 1
2 1
3 2 567
4 1 123
我什至正在努力定义一种方法来解决这个问题(这意味着我应该使用数据透视表、groupby)。因此,即使我得到了一些关于如何处理这种情况的方向或建议,我也会继续努力。
最佳答案
使用pandas.DataFrame.groupby.transform
:
df['cluster'] = df.groupby('ssn').transform(min)
输出:
cluster ssn
0 1 123
1 1
2 1
3 2 567
4 1 123
关于Python链接记录列中是否匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56151410/