python - Pandas 根据字典中描述的关系加入两个数据框

标签 python pandas

我有两个数据框,我想根据列表字典中描述的关系加入,其中字典中的键引用 dfA idA 列中的 id,列表中的项目是 dfB idB 列中的 id。数据框和字典看起来像这样:

dfA
     colA    colB   idA
0    a       abc    3
1    b       def    4
2    b       ghi    5 

dfB
     colX    idB   colZ  
0    bob     7     a
1    bob     7     b
2    bob     7     c
3    jim     8     d
4    jake    9     a 
5    jake    9     e 

myDict = { '3': [ '7', '8' ], '4': [], '5': ['7', '9'] }

如何使用 myDict 连接两个数据框以生成如下所示的数据框?

dfC
     colA    colB   idA   colX    idB   colZ 
0    a       abc    3     bob     7      a
1                                        b
2                                        c
3                         jim     8      d
4    b       def    4     None    None  None
5    b       ghi    5     bob     7      a
6                                        b
7                                        c
8                         jake    9      a
9                                        e

最佳答案

您可以从字典中创建链接表 (DataFrame)。下面是完整的工作示例。它可能需要在最后进行一些行和列排序才能准确地生成您的输出。

import pandas as pd
import numpy as np

dfA = pd.DataFrame({'colA': ('a', 'b', 'b'),
                    'colB': ('abc', 'def', 'ghi'),
                    'idA': ('3', '4', '5')})

dfB = pd.DataFrame({'colX': ('bob', 'bob', 'bob', 'jim', 'jake', 'jake'),
                    'idB': ('7', '7', '7', '8', '9', '9'),
                    'colZ': ('a', 'b', 'c', 'd', 'a', 'e')})

myDict = {'3': ['7', '8'], '4': [], '5': ['7', '9']}

dfC = pd.DataFrame(columns=['idA', 'idB'])
i = 0
for key, value in myDict.items():
    # the if statement is for empty list to create one record with NaNs
    if not value:
        dfC.loc[i, 'idA'] = key
        dfC.loc[i, 'idB'] = np.nan
        i += 1
    for val in value:
        dfC.loc[i, 'idA'] = key
        dfC.loc[i, 'idB'] = val
        i += 1

temp = dfA.merge(dfC, how='right')
result = temp.merge(dfB, how='outer')

print(result)

输出是:

  colA colB idA  idB  colX colZ
0    a  abc   3    7   bob    a
1    a  abc   3    7   bob    b
2    a  abc   3    7   bob    c
3    b  ghi   5    7   bob    a
4    b  ghi   5    7   bob    b
5    b  ghi   5    7   bob    c
6    a  abc   3    8   jim    d
7    b  def   4  NaN   NaN  NaN
8    b  ghi   5    9  jake    a
9    b  ghi   5    9  jake    e

关于python - Pandas 根据字典中描述的关系加入两个数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51547168/

相关文章:

python - 如何使用pyparted检查和更改分区表

python - 如何使用 tf-idf 对新文档进行分类?

python - 获取文本格式的摘要计数

python - Pandas:过滤在几个特定列中的任何一个中具有 Null/None/NaN 值的行

python - PEP8 的 E128 : continuation line under-indented for visual indent? 是什么

Python:填充多维数组

python - 处理文件名中的文字空间

python - Pandas:在没有 for 循环的情况下更新 pandas 数据框中的列的更有效方法

python - Pandas Python : sort dataframe but don't include given row

python - Pandas - df.at 功能错误 - python