我有一个包含以下列且没有重复项的 DataFrame:
['region', 'type', 'name', 'value']
可以看成如下层次结构
grouped = df.groupby(['region','type', 'name'])
我想将此层次结构序列化为 JSON 对象。
如果有人感兴趣,这背后的动机是最终将像 this one 这样的可视化放在一起。这需要一个 JSON
文件。
为此,我需要将 grouped
转换为以下内容:
new_data['children'][i]['name'] = region
new_data['children'][i]['children'][j]['name'] = type
new_data['children'][i]['children'][j]'children'][k]['name'] = name
new_data['children'][i]['children'][j]'children'][k]['size'] = value
...
其中region
、type
、name
对应层次结构的不同层级(由i
索引,j
和 k
)
Pandas/Python 中是否有一种简单的方法可以做到这一点?
最佳答案
沿着这些路线的东西可能会让你到达那里。
from collections import defaultdict
tree = lambda: defaultdict(tree) # a recursive defaultdict
d = tree()
for _, (region, type, name, value) in df.iterrows():
d['children'][region]['name'] = region
...
json.dumps(d)
向量化的解决方案会更好,也许可以利用 groupby 的速度优势,但我想不出这样的解决方案。
另请查看 df.groupby(...).groups
,它返回一个字典。
另见 this answer .
关于python - Pandas 到 D3。将数据帧序列化为 JSON,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23531145/