python-3.x - 如何从 Pandas DataFrame 绘制家谱？

  |--------+---+-------------+-----------+------+------+--------+--------+----------------+----------------| | Last name |  DoB |  DoD | FID    | MID    | Place of birth | Job            | -----+-----------+------+------+--------+--------+----------------+----------------| | Andolini  |      | 1901 |        |        | Corleone       |                | | Andolini  |      | 1901 |        |        | Corleone       | housewife      | | Andolini  | 1887 | 1901 | AnAn   | SiAn   |                |                | | Corleone  | 1892 | 1954 | AnAn   | SiAn   | Corleone       | godfather      | | Corleone  | 1897 | 1959 |        |        |                |                | | Hagen     | 1910 | 1970 | ViCo92 | CaCo97 | New York       | Consigliere    | | Corleone  | 1916 | 1948 | ViCo92 | CaCo97 | New York       | gangster       | | Colombo   | 1917 |      |        |        | Messina        |                | | Corleone  | 1919 | 1959 | ViCo92 | CaCo97 | New York       | Casino Manager | | Corleone  | 1920 | 1997 | ViCo92 | CaCo97 | New York       | godfather      | | Hagen     | 1920 |      |        |        | New Jersey     | Art expert     | | Mancini   | 1923 |      |        |        |                | Hotel employee | | Adams     | 1934 |      |        |        |                |                | | Corleone  | 1937 |      | SaCo16 | SaCo17 |                |                | | Corleone  | 1937 |      | SaCo16 | SaCo17 |                |                | | Corleone  | 1940 |      | SaCo16 | SaCo17 |                |                | | Santino Jr. | Corleone  | 1945 |      | SaCo16 | SaCo17 |                |                | | Hagen     | 1940 |      | ToHa10 | Th20   |                |                | | Hagen     | 1942 |      | ToHa10 | Th20   |                | Priest         | | Mancini   | 1948 |      | SaCo16 | LuMa23 | New York       | Godfather      | | Hagen     | 1948 |      | ToHa10 | Th20   |                |                | | Corleone  | 1951 |      | MiCo20 | KaAd24 | New York       | Singer         | | Corleone  | 1953 | 1979 | MiCo20 | KaAd24 | New York       | Student        | | Hagen     | 1954 |      | ToHa10 | Th20   |                |                | | Corleone  | 1927 |      | ViCo92 | CaCo97 | New York       | rentier        | | Rizzi     | 1920 | 1955 |        |        | Nevada         | Bookmaker      | | Rizzi     | 1949 |      | CaRi20 | CoCo27 | New York       |                | | Rizzi     | 1955 |      | CaRi20 | CoCo27 |                |                | -----+-----------+------+------+--------+--------+----------------+----------------| 体之间的关系可以理解为有向无环图(DAG)。我的目标是使用图形绘制将此表可视化为家谱。
首先，我将表格转换为边缘列表，其中 ID是起始顶点和 ParentID结束顶点:import pandas as pd ;corleone.csv') ;,'MID']] ;,'FID']] 'ParentID'] left_index=True, right_index=True, how='left') = df[df.columns[4:6]].apply(lambda x: ' '.join(x.dropna().astype(str)),axis=1) ','FID', 'MID', 'First name', 'Last name'], axis=1) 'name', 'S', 'DoB', 'DoD', 'Place of birth', 'Job', 'ParentID']] 以下数据帧:|--------+----------------------+---+--------+--------+----------------+----------------+----------| | S |    DoB |    DoD | Place of birth | Job            | ParentID | --------+---+--------+--------+----------------+----------------+----------| | M | 1887.0 | 1901.0 | NaN            | NaN            | SiAn     | | M | 1887.0 | 1901.0 | NaN            | NaN            | AnAn     | | M | 1892.0 | 1954.0 | Corleone       | godfather      | SiAn     | | M | 1892.0 | 1954.0 | Corleone       | godfather      | AnAn     | | M | 1910.0 | 1970.0 | New York       | Consigliere    | CaCo97   | | M | 1910.0 | 1970.0 | New York       | Consigliere    | ViCo92   | | M | 1916.0 | 1948.0 | New York       | gangster       | CaCo97   | | M | 1916.0 | 1948.0 | New York       | gangster       | ViCo92   | | M | 1919.0 | 1959.0 | New York       | Casino Manager | CaCo97   | | M | 1919.0 | 1959.0 | New York       | Casino Manager | ViCo92   | | M | 1920.0 | 1997.0 | New York       | godfather      | CaCo97   | | M | 1920.0 | 1997.0 | New York       | godfather      | ViCo92   | | F | 1937.0 |    NaN | NaN            | NaN            | SaCo17   | | F | 1937.0 |    NaN | NaN            | NaN            | SaCo16   | | F | 1937.0 |    NaN | NaN            | NaN            | SaCo17   | | F | 1937.0 |    NaN | NaN            | NaN            | SaCo16   | | F | 1940.0 |    NaN | NaN            | NaN            | SaCo17   | | F | 1940.0 |    NaN | NaN            | NaN            | SaCo16   | Jr. Corleone | M | 1945.0 |    NaN | NaN            | NaN            | SaCo17   | Jr. Corleone | M | 1945.0 |    NaN | NaN            | NaN            | SaCo16   | | M | 1940.0 |    NaN | NaN            | NaN            | Th20     | | M | 1940.0 |    NaN | NaN            | NaN            | ToHa10   | | M | 1942.0 |    NaN | NaN            | Priest         | Th20     | | M | 1942.0 |    NaN | NaN            | Priest         | ToHa10   | | M | 1948.0 |    NaN | New York       | Godfather      | LuMa23   | | M | 1948.0 |    NaN | New York       | Godfather      | SaCo16   | | F | 1948.0 |    NaN | NaN            | NaN            | Th20     | | F | 1948.0 |    NaN | NaN            | NaN            | ToHa10   | | M | 1951.0 |    NaN | New York       | Singer         | KaAd24   | | M | 1951.0 |    NaN | New York       | Singer         | MiCo20   | | F | 1953.0 | 1979.0 | New York       | Student        | KaAd24   | | F | 1953.0 | 1979.0 | New York       | Student        | MiCo20   | | F | 1954.0 |    NaN | NaN            | NaN            | Th20     | | F | 1954.0 |    NaN | NaN            | NaN            | ToHa10   | | F | 1927.0 |    NaN | New York       | rentier        | CaCo97   | | F | 1927.0 |    NaN | New York       | rentier        | ViCo92   | | M | 1949.0 |    NaN | New York       | NaN            | CoCo27   | | M | 1949.0 |    NaN | New York       | NaN            | CaRi20   | | M | 1955.0 |    NaN | NaN            | NaN            | CoCo27   | | M | 1955.0 |    NaN | NaN            | NaN            | CaRi20   | --------+---+--------+--------+----------------+----------------+----------| graphviz 生成一个 DAG:from graphviz import Digraph format='pdf', encoding='utf8', filename='corleone', node_attr={'color': 'lightblue2', 'style': 'filled'}) shape='box') ParentID"]), str(row["ID"]), label='') 
我面临的问题是我想修改很多方面，例如:
男性用一种颜色，女性用另一种颜色
使用名称而不是 ID 
箭头看起来像家谱箭头 
能够在每个框中添加附加信息，例如 DoB、DoD 等。

我不知道是否可以使用 graphviz 来做到这一点(在文档中找不到方法)，如果不是，我会对如何实现它的想法感兴趣。



		            	
		            		
		            			最佳答案
		            		
		            	

		            	
		            		我改进了绘图，但它仍然没有达到我的期望。所以这里是带有一些修改注释的代码。
空白单元格空白而不是 NaN :
 keep_default_na=False 

 替换 ParentID 中的每个空格通过特定字符串:
 el.replace('', np.nan, regex=True, inplace = True) 
 t = pd.DataFrame({'tmp':['no_entry'+str(i) for i in range(el.shape[0])]}) 
 el['ParentID'].fillna(t['tmp'], inplace=True) 

 import pandas as pd
import numpy as np
rawdf = pd.read_csv('corleone.csv', keep_default_na=False)
el1 = rawdf[['ID','MID']]
el2 = rawdf[['ID','FID']]
el1.columns = ['Child', 'ParentID']
el2.columns = el1.columns
el = pd.concat([el1, el2])
el.replace('', np.nan, regex=True, inplace = True)
t = pd.DataFrame({'tmp':['no_entry'+str(i) for i in range(el.shape[0])]})
el['ParentID'].fillna(t['tmp'], inplace=True)
df = el.merge(rawdf, left_index=True, right_index=True, how='left')
df['name'] = df[df.columns[4:6]].apply(lambda x: ' '.join(x.dropna().astype(str)),axis=1)
df = df.drop(['Child','FID', 'MID', 'First name', 'Last name'], axis=1)
df = df[['ID', 'name', 'S', 'DoB', 'DoD', 'Place of birth', 'Job', 'ParentID']]
将具有相同起始和结束节点并具有方形边的边分组
 graph_attr={"concentrate": "true", "splines":"ortho"}) 

 有节点显示 name , job , DoB , Place of birth , DoD
 label= ... 

 根据性别定义节点颜色
 _attributes={'color':'lightpink' if row['S']=='F' else 'lightblue'if row['S']=='M' else 'lightgray'} 

 from graphviz import Digraph
f = Digraph('neato', format='jpg', encoding='utf8', filename='corleone', node_attr={'style': 'filled'},  graph_attr={"concentrate": "true", "splines":"ortho"})
f.attr('node', shape='box')
for index, row in df.iterrows():
    f.node(row['ID'],
           label=
             row['name']
              + '\n' + 
             row['Job'] 
             + '\n'+ 
             row['DoB'] 
             + '\n' + 
             row['Place of birth']
             + '\n†' + 
             row['DoD'],
           _attributes={'color':'lightpink' if row['S']=='F' else 'lightblue'if row['S']=='M' else 'lightgray'})
for index, row in df.iterrows():
    f.edge(str(row["ParentID"]), str(row["ID"]), label='')  
f.view()
结果如下:
哪个好得多。尽管如此，仍然存在两个主要缺陷:
当 parent 和 child 看起来像这样时， parent 和 child 之间的边缘都被分割了 
我无法删除不必要的换行符和死亡符号 

			            

					

					
					
						关于python-3.x - 如何从 Pandas DataFrame 绘制家谱？，我们在Stack Overflow上找到一个类似的问题：
							
								https://stackoverflow.com/questions/66823677/

python-3.x - 如何从 Pandas DataFrame 绘制家谱？

上一篇：正则表达式多次匹配捕获组

下一篇：java - Lombok 的应用程序构建失败原因