python - 寻找一种加速 Pandas 合并的方法(或可能是另一种方法)

标签 python python-3.x pandas dataframe pandas-groupby

您好，我最近发布了一个关于执行合并以获取 pandas 数据框并返回满足条件的列的问题。

完整的细节可以在这里找到:

How to add a new column to a pandas df that returns the smallest value that is greater in the same group from another dataframe

(不确定我是否应该发布整个问题以保持这篇文章的独立性，所以我现在只留下一个链接)。

给出的解决方案运行良好，因为我需要较小的数据集，所以认为少于一千行。

这是建议的答案:

m=(df1.assign(key=1).merge(df2.assign(key=1),on='key',suffixes=('','_y')).drop('key', 1)
                                            .query("(Code==Code_y)&(Price<=Price_y)"))
m.groupby(['Code','Price'],sort=False)['Price_y'].first().reset_index(name='New Price'

然而，当我开始在更大的数据集(这是我的要求)上使用它时，它开始减速到几乎无法使用的水平，想想 5 分钟 + 数千行，一旦我因为内存错误而完全崩溃尝试进一步增加数据框中的行数。

我不禁想到，一定有更好的方式来在更高效的时间内完成这个 Action 。

有人有什么建议吗？

最佳答案

请尝试:

m=df1.set_index('Code').join(df2.set_index('Code'),rsuffix='_New')
df1.join(m[m.Price<=m.Price_New].groupby('Price',sort=False)['Price_New']
         .first().reset_index(drop=True))

  Code  Price  Price_New
0    X   4.30        4.5
1    X   2.50        2.5
2    X   4.00        4.0
3    X   1.50        1.5
4    X   0.24        0.5
5    X   1.00        1.0
6    X   1.30        1.5
7    Y   3.90        4.0
8    Y   2.60        3.0

样本 df 的性能:

关于python - 寻找一种加速 Pandas 合并的方法(或可能是另一种方法)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57784836/

上一篇：python - 如何在 Apache Beam (Python) 中通过键在静态查找表上以流模式加入 PCollection

下一篇：python - 将异步协程作为 celery 任务运行

python - 从 csv 数据框中选择一列

Python - 来自 CSV 文件的字典，每个键有多个值

python - Venv 在 CentOS 中失败，确保 pip 丢失

python-3.x - 在 Linux Mint 上安装 Python

python-3.x - 导入错误 : cannot import name 'OP_NO_TICKET' from 'urllib3.util.ssl_'

python - 将for循环输出写入python中的文本文件

python - Pygame 箭头控件

python - 根据应用于两个数据帧的条件创建第三个数据帧

Python:使用其他列将值分配给 Pandas 中的新列作为列表