python - 识别树中的根 parent 及其所有 child

标签 python pandas

我有一个 pandas 数据框:

parent   child   parent_level   child_level
A        B       0              1
B        C       1              2
B        D       1              2
X        Y       0              2
X        D       0              2 
Y        Z       2              3

这代表一棵看起来像这样的树

       A  X
      /  / \
     B  /   \
    /\ /     \
   C  D       Y
              |
              Z

我想制作如下所示的东西:

root    children
A       [B,C,D]
X       [D,Y,Z]

root   child
A      B
A      C
A      D
X      D
X      Y
X      Z 

在不循环的情况下最快的方法是什么?我有一个非常大的数据框。

最佳答案

我建议您使用networkx ,因为这是一个图问题。特别是descendants功能:

import networkx as nx
import pandas as pd

data = [['A', 'B', 0, 1],
        ['B', 'C', 1, 2],
        ['B', 'D', 1, 2],
        ['X', 'Y', 0, 2],
        ['X', 'D', 0, 2],
        ['Y', 'Z', 2, 3]]

df = pd.DataFrame(data=data, columns=['parent', 'child', 'parent_level', 'child_level'])

roots = df.parent[df.parent_level.eq(0)].unique()
dg = nx.from_pandas_edgelist(df, source='parent', target='child', create_using=nx.DiGraph)

result = pd.DataFrame(data=[[root, nx.descendants(dg, root)] for root in roots], columns=['root', 'children'])
print(result)

输出

  root   children
0    A  {D, B, C}
1    X  {Z, Y, D}

关于python - 识别树中的根 parent 及其所有 child ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58451134/

相关文章:

python - 我如何获得查询执行时间的 psycopg2 日志记录?

python - 仅读取一个数据帧中的数值并根据这些值创建另一个数据帧

python-3.x - 使用额外的训练列将数据集分成两部分

Python 从 .xls 文件读取数据时出错

python - Pandas 函数 pandas.read_sql_table() 返回一个 DataFrame,其中值的顺序错误

python - 如何计算 MXNet 中损失函数的 hessian 矩阵?

python - numpy计算多个数组中的频率

python setockopt 什么是磨损

python - 字符串处理错误 : UnicodeDecodeError: 'utf8' codec can't decode

python - 在Python中循环日期