python - 合并多个大型 DataFrame 的有效方法

标签 python pandas dataframe merge out-of-memory

假设我有 4 个小 DataFrame

df1df2df3df4

import pandas as pd
from functools import reduce
import numpy as np

df1 = pd.DataFrame([['a', 1, 10], ['a', 2, 20], ['b', 1, 4], ['c', 1, 2], ['e', 2, 10]])
df2 = pd.DataFrame([['a', 1, 15], ['a', 2, 20], ['c', 1, 2]])
df3 = pd.DataFrame([['d', 1, 10], ['e', 2, 20], ['f', 1, 1]])  
df4 = pd.DataFrame([['d', 1, 10], ['e', 2, 20], ['f', 1, 15]])   


df1.columns = ['name', 'id', 'price']
df2.columns = ['name', 'id', 'price']
df3.columns = ['name', 'id', 'price']    
df4.columns = ['name', 'id', 'price']   

df1 = df1.rename(columns={'price':'pricepart1'})
df2 = df2.rename(columns={'price':'pricepart2'})
df3 = df3.rename(columns={'price':'pricepart3'})
df4 = df4.rename(columns={'price':'pricepart4'})

上面创建的是4个DataFrame,我想要的在下面的代码中。

# Merge dataframes
df = pd.merge(df1, df2, left_on=['name', 'id'], right_on=['name', 'id'], how='outer')
df = pd.merge(df , df3, left_on=['name', 'id'], right_on=['name', 'id'], how='outer')
df = pd.merge(df , df4, left_on=['name', 'id'], right_on=['name', 'id'], how='outer')

# Fill na values with 'missing'
df = df.fillna('missing')

所以我已经为 4 个没有很多行和列的 DataFrame 实现了这一点。

基本上,我想将上述外部合并解决方案扩展到多个(48)个大小为 62245 X 3 的数据帧:

因此,我通过构建另一个使用 lambda reduce 的 StackOverflow 答案得出了这个解决方案:

from functools import reduce
import pandas as pd
import numpy as np
dfList = []

#To create the 48 DataFrames of size 62245 X 3
for i in range(0, 49):

    dfList.append(pd.DataFrame(np.random.randint(0,100,size=(62245, 3)), columns=['name',  'id',  'pricepart' + str(i + 1)]))


#The solution I came up with to extend the solution to more than 3 DataFrames
df_merged = reduce(lambda  left, right: pd.merge(left, right, left_on=['name', 'id'], right_on=['name', 'id'], how='outer'), dfList).fillna('missing')

这会导致 MemoryError

我不知道该怎么做才能阻止内核死掉。我已经坚持了两天了。我执行的 EXACT 合并操作的一些代码不会导致 MemoryError 或能给您带来相同结果的东西,我们将不胜感激。

此外,主 DataFrame 中的 3 列(不是示例中可重现的 48 DataFrame)的类型为 int64int64float64 我希望它们保持这种状态,因为它代表整数和 float 。

编辑:

我没有反复尝试运行合并操作或使用 reduce lambda 函数,而是以 2 人为一组来完成!此外,我还更改了一些列的数据类型,有些不需要是 float64。所以我将其归结为 float16。它走得很远,但最终仍会抛出一个 MemoryError

intermediatedfList = dfList    

tempdfList = []    

#Until I merge all the 48 frames two at a time, till it becomes size 2
while(len(intermediatedfList) != 2):

    #If there are even number of DataFrames
    if len(intermediatedfList)%2 == 0:

        #Go in steps of two
        for i in range(0, len(intermediatedfList), 2):

            #Merge DataFrame in index i, i + 1
            df1 = pd.merge(intermediatedfList[i], intermediatedfList[i + 1], left_on=['name',  'id'], right_on=['name',  'id'], how='outer')
            print(df1.info(memory_usage='deep'))

            #Append it to this list
            tempdfList.append(df1)

        #After DataFrames in intermediatedfList merging it two at a time using an auxillary list tempdfList, 
        #Set intermediatedfList to be equal to tempdfList, so it can continue the while loop. 
        intermediatedfList = tempdfList 

    else:

        #If there are odd number of DataFrames, keep the first DataFrame out

        tempdfList = [intermediatedfList[0]]

        #Go in steps of two starting from 1 instead of 0
        for i in range(1, len(intermediatedfList), 2):

            #Merge DataFrame in index i, i + 1
            df1 = pd.merge(intermediatedfList[i], intermediatedfList[i + 1], left_on=['name',  'id'], right_on=['name',  'id'], how='outer')
            print(df1.info(memory_usage='deep'))
            tempdfList.append(df1)

        #After DataFrames in intermediatedfList merging it two at a time using an auxillary list tempdfList, 
        #Set intermediatedfList to be equal to tempdfList, so it can continue the while loop. 
        intermediatedfList = tempdfList 

有什么方法可以优化我的代码以避免 MemoryError,我什至使用了 AWS 192GB RAM(我现在欠他们 7 美元,我本可以给你们一个),那个比我得到的更远,它仍然抛出 MemoryError 将 28 个 DataFrame 的列表减少到 4..

最佳答案

您可能会从使用 pd.concat 执行索引对齐连接中获得一些好处。这应该比外部合并更快,内存效率更高。

df_list = [df1, df2, ...]
for df in df_list:
    df.set_index(['name', 'id'], inplace=True)

df = pd.concat(df_list, axis=1) # join='inner'
df.reset_index(inplace=True)

或者,您可以将 concat(第二步)替换为迭代 join:

from functools import reduce
df = reduce(lambda x, y: x.join(y), df_list)

这可能比 merge 好,也可能不好。

关于python - 合并多个大型 DataFrame 的有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50886269/

相关文章:

python - 在opencv python中应用基于flan的匹配器时出错

python - IPython Notebook session 中的多个目录和/或子目录?

python - 从第一个非空白之前获取列的子集

python - 按列显示多个颜色图的热图

python - 在python中绘制从数据点到零轴的垂直线

python - 找到图层中一个多边形到其他多边形的最小距离?

python - 逐组遍历 pandas

r - 如何将数据框随机分成三个具有给定行数的较小数据框

python - pandas 与索引的元素相乘

python - 如何使用 Python 在 Pandas 中应用多个条件?