python - pandas 聚合来自两个数据框的数据

标签 python pandas

我有两个 pandas 数据框,其中一些索引和一些列名称是共同的(例如与常见数量相关的部分重叠的时间序列)。

我需要将这两个数据帧合并到一个包含所有索引和每个索引的所有值的数据帧中,保留左(右)数据帧的值,以防索引列组合出现在两个数据帧中。

合并和联接方法都没有帮助,因为合并方法会重复我不需要的信息,而联接会导致同样的问题。

获得我需要的结果的有效方法是什么?

编辑: 例如,如果我有两个数据框

df1 = pd.DataFrame({
'C1' : [1.1, 1.2, 1.3],
'C2' : [2.1, 2.2, 2.3],
'C3': [3.1, 3.2, 3.3]},
index=['a', 'b', 'c'])

df2 = pd.DataFrame({
'C3' : [3.1, 3.2, 33.3],
'C4' : [4.1, 4.2, 4.3]},
index=['b', 'c', 'd'])

我需要的是一种允许我创建的方法:

merged = pd.DataFrame({
'C1': [1.1, 1.2, 1.3, 'nan'],
'C2': [2.1, 2.2, 2.3, 'nan'],
'C3': [3.1, 3.2, 3.3, 33.3], 
'C4': ['nan', 4.1, 4.2, 4.3]},
index=['a', 'b', 'c', 'd'])

最佳答案

以下是三种可能性:

  • 使用concat/groupby:首先垂直连接两个DataFrame。然后按索引分组并选择每组中的第一行。

  • 使用combine_first:创建一个新索引,它是df1df2的并集。使用新索引重新索引df1。然后使用 combine_first 使用 df2 中的值填充 NaN。

  • 使用手动构造:我们可以使用df2.index.difference(df1.index)来准确查找需要添加到df1中的行。因此,我们可以手动从 df2 中选择这些行并将它们连接到 df1

对于小型 DataFrame,using_concat 速度更快。对于较大的 DataFrame,using_combine_first 似乎比其他选项稍快:

import numpy as np
import pandas as pd
import perfplot

def make_dfs(N):
    df1 = pd.DataFrame(np.random.randint(10, size=(N,2)))
    df2 = pd.DataFrame(np.random.randint(10, size=(N,2)), index=range(N//2,N//2 + N))
    return df1, df2

def using_concat(dfs):
    df1, df2 = dfs
    result = pd.concat([df1,df2], sort=False)
    n = result.index.nlevels
    return result.groupby(level=range(n)).first()

def using_combine_first(dfs):
    df1, df2 = dfs
    index = df1.index.union(df2.index)
    result = df1.reindex(index)
    result = result.combine_first(df2)
    return result

def using_manual_construction(dfs):
    df1, df2 = dfs
    index = df2.index.difference(df1.index)
    cols = df2.columns.difference(df1.columns)
    result = pd.concat([df1, df2.loc[index]], sort=False)
    result.loc[df2.index, cols] = df2
    return result

perfplot.show(
    setup=make_dfs,
    kernels=[using_concat, using_combine_first, 
             using_manual_construction],
    n_range=[2**k for k in range(5,21)],
    logx=True,
    logy=True,
    xlabel='len(df)')

enter image description here

关于python - pandas 聚合来自两个数据框的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51024619/

相关文章:

python - 识别数据集中的特征类型: categorical or bag of words

Python-单热编码为单列

python - 具有多索引的 Groupby

python - 在Python中查找两个字典列表之间的差异

pandas - 如何突出显示 pandas 图中的区域?

python - 通过跳过 Python/Pandas 中的某些值来计算数据帧平均值

python - 我的 sum 函数没有对某些列的值求和

Python PEP 8 : Blank lines at the beginning of a module

python - Python 使用 Socket 发送多个文件

python - 在Google App Engine邮件API中设置背景图像