您好,我最近发布了一个关于执行合并以获取 pandas 数据框并返回满足条件的列的问题。
完整的细节可以在这里找到:
(不确定我是否应该发布整个问题以保持这篇文章的独立性,所以我现在只留下一个链接)。
给出的解决方案运行良好,因为我需要较小的数据集,所以认为少于一千行。
这是建议的答案:
m=(df1.assign(key=1).merge(df2.assign(key=1),on='key',suffixes=('','_y')).drop('key', 1)
.query("(Code==Code_y)&(Price<=Price_y)"))
m.groupby(['Code','Price'],sort=False)['Price_y'].first().reset_index(name='New Price'
然而,当我开始在更大的数据集(这是我的要求)上使用它时,它开始减速到几乎无法使用的水平,想想 5 分钟 + 数千行,一旦我因为内存错误而完全崩溃尝试进一步增加数据框中的行数。
我不禁想到,一定有更好的方式来在更高效的时间内完成这个 Action 。
有人有什么建议吗?
最佳答案
请尝试:
m=df1.set_index('Code').join(df2.set_index('Code'),rsuffix='_New')
df1.join(m[m.Price<=m.Price_New].groupby('Price',sort=False)['Price_New']
.first().reset_index(drop=True))
Code Price Price_New
0 X 4.30 4.5
1 X 2.50 2.5
2 X 4.00 4.0
3 X 1.50 1.5
4 X 0.24 0.5
5 X 1.00 1.0
6 X 1.30 1.5
7 Y 3.90 4.0
8 Y 2.60 3.0
样本 df 的性能:
关于python - 寻找一种加速 Pandas 合并的方法(或可能是另一种方法),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57784836/