python - 根据最近的值合并 Pandas 数据帧

我有两个数据框，比如 A 和 B，它们有一些名为 attr1、attr2 的列， attrN.

我有一定的距离度量，我想合并数据帧，这样 A 中的每一行都与 B 中最短的行合并属性之间的距离。请注意，B 中的行在合并时可以重复。

例如(使用一个属性以保持简单)，使用绝对差异距离合并这两个表 |A.attr1 - B.att1|

A | attr1      B | attr1
0 | 10         0 | 15
1 | 20         1 | 27
2 | 30         2 | 80

应该产生下面的合并表

M | attr1_A  attr1_B
0 | 10       15
1 | 20       15
2 | 30       27

我目前的做法很慢，并且是基于将 A 的每一行与 B 的每一行进行比较，但代码也不清楚，因为我必须保留合并索引，我一点都不满意，但我想不出更好的解决方案。

如何使用 pandas 执行上述合并？是否有任何方便的方法或功能可以在这里提供帮助？

编辑:澄清一下，在数据框中还有其他列未用于距离计算，但也必须合并。

最佳答案

一种方法如下:

A = pd.DataFrame({'attr1':[10,20,30]})
B = pd.DataFrame({'attr1':[15,15,27]})

使用交叉连接获取所有组合

1.2+ pandas 的更新使用 how='cross'

merge_AB = A.merge(B, how='cross', suffixes = ('_A', '_B'))

旧的 pandas 版本使用伪 key ...

A = A.assign(key=1)
B = B.assign(key=1)

merged_AB =pd.merge(A,B, on='key',suffixes=('_A','_B'))

现在让我们找出 merged_AB 中的最小距离

M = merged_AB.groupby('attr1_A').apply(lambda x:abs(x['attr1_A']-x['attr1_B'])==abs(x['attr1_A']-x['attr1_B']).min())

merged_AB[M.values].drop_duplicates().drop('key',axis=1)

输出:

   attr1_A  attr1_B
0       10       15
3       20       15
8       30       27

关于python - 根据最近的值合并 Pandas 数据帧，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43491342/

python - 根据最近的值合并 Pandas 数据帧

上一篇：python - 从 sub dag 中拉取 xcom

下一篇：python - 使用 tweepy 发送多个媒体