python - 在 Pandas 中混合数据帧

标签 python pandas

我无法弄清楚如何“混合”两个 DataFrame。我所追求的是用类似 DataFrame df_B 中找到的值填充 DataFrame df_A 中的“缺失”值。我尝试过不同版本的 join 但显然目前还没有得出结果。

此外,

例如

dict_a = {'ID' : ['id_a', 'id_b', 'id_c', 'id_c'], 'A': ['Hello', 2, 3, 3], 'B': [3, 4, 5, 55], 'C': [11, 'World', 15, 25], 'Date': ['2018-10-23', '2018-10-23', '2018-10-23', '2018-10-24']}
dict_b = {'ID' : ['id_c', 'id_a'], 'A': [np.nan, 31], 'B': [np.nan, 55], 'C': [11, np.nan], 'Date': ['2018-10-23', '2018-10-23']}

df_A = pd.DataFrame(data=dict_a)
df_B = pd.DataFrame(data=dict_b)

>> df_A
>>               A  B      C    ID    Date
          0  Hello  3     11    id_a  2018-10-23
          1      2  4  World    id_b  2018-10-23
          2      3  5     15    id_c  2018-10-23
          3      3  55    25    id_c  2018-10-24

>> df_B
>>               A  B      C    ID    Date
          0    NaN  NaN   11.0  id_c  2018-10-23
          1   31.0  55.0  NaN   id_a  2018-10-23

期望的结果应该类似于(伪代码)

>> df_blended = df_B.values if df_A.isnan() else df_A.values where df_A.ID = df_B.ID and df_A.Date= df_B.Date
>> df_blended
>>               A  B      C    ID    Date
          0      3  5    11.0  id_c  2018-10-23
          1   31.0  55.0  11   id_a  2018-10-23

因此,优先考虑 df_B,其次使用 df_A。希望大家能够理解!

谢谢

最佳答案

使用combine_first :

df = df_B.combine_first(df_A)
print (df)

       A     B      C
0  Hello  32.0     11
1     22   4.0  World
2     31  55.0     15

或者numpy.where ,但所有数据都转换为字符串:

df = pd.DataFrame(np.where(df_B.isnull(), df_A, df_B), index=df_A.index, columns=df_A.columns)
print (df)

       A   B      C
0  Hello  32     11
1     22   4  World
2     31  55     15

编辑:首先merge使用默认内部联接,然后使用 rename 选择列并使用 combine_first:

df = df_B.merge(df_A, on=['ID','Date'], suffixes=('','_'))

cols = df.columns[df.columns.str.endswith('_')]
df = df[df_B.columns].combine_first(df[cols].rename(columns=lambda x: x.strip('_')))

print (df)
      A     B     C        Date    ID
0   3.0   5.0  11.0  2018-10-23  id_c
1  31.0  55.0  11.0  2018-10-23  id_a

关于python - 在 Pandas 中混合数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52946597/

相关文章:

python - 将旋转矩阵应用于 xy 坐标

python - 多列高效搜索

python - 如何创建一个列作为其他两个列的函数?

python,计算数据框中列表的唯一列表值

python - Beaker 缓存性能指南

python - 如何解决,PermissionError : [Errno 13] Permission denied: 'test.from'

python - 使用相对路径一行导入模块

python Pandas : How to unique strings in a column

python - python中的构造函数链接

python - Django - 反转自定义管理 URL