python - 如何将 python 字典转换为 pandas 数据框

标签 python pandas dataframe dictionary

我使用 DataFrame.from_dict 将 python 字典转换为 pandas 数据框。如果字典中的项目按特定顺序排列,它就完全符合我的要求。我有一个参数字典,其中一些项目是单个值,一些是列表,一些是字典。只要我在字典的第一个位置没有列表或字典,它就可以完美运行。如果我在第一个位置有一个列表或字典,它就不起作用。

>>> import pandas as pd
>>> my_dict = {'a': 1, 'b': [1, 2, 3], 'c': {'x': 'aa', 'y': 'bb'}}
>>> my_dict
{'a': 1, 'b': [1, 2, 3], 'c': {'x': 'aa', 'y': 'bb'}}
>>> pd.DataFrame.from_dict(my_dict, orient='index').reset_index().rename(columns={'index': 'prop_name', 0: 'prop_value'})
  prop_name              prop_value
0         a                       1
1         b               [1, 2, 3]
2         c  {'x': 'aa', 'y': 'bb'}
>>> my_dict2 = {'c': {'x': 'aa', 'y': 'bb'}, 'a': 1, 'b': [1, 2, 3]}
>>> pd.DataFrame.from_dict(my_dict2, orient='index').reset_index().rename(columns={'index': 'prop_name', 0: 'prop_value'})
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/python3/dist-packages/pandas/core/frame.py", line 1300, in from_dict
    data = _from_nested_dict(data)
  File "/usr/lib/python3/dist-packages/pandas/core/frame.py", line 9281, in _from_nested_dict
    for col, v in s.items():
AttributeError: 'int' object has no attribute 'items'
>>> my_dict3 = {'b': [1, 2, 3], 'c': {'x': 'aa', 'y': 'bb'}, 'a': 1 }
>>> pd.DataFrame.from_dict(my_dict3, orient='index').reset_index().rename(columns={'index': 'prop_name', 0: 'prop_value'})
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/python3/dist-packages/pandas/core/frame.py", line 1309, in from_dict
    return cls(data, index=index, columns=columns, dtype=dtype)
  File "/usr/lib/python3/dist-packages/pandas/core/frame.py", line 509, in __init__
    arrays, columns = to_arrays(data, columns, dtype=dtype)
  File "/usr/lib/python3/dist-packages/pandas/core/internals/construction.py", line 524, in to_arrays
    return _list_to_arrays(data, columns, coerce_float=coerce_float, dtype=dtype)
  File "/usr/lib/python3/dist-packages/pandas/core/internals/construction.py", line 561, in _list_to_arrays
    content = list(lib.to_object_array(data).T)
  File "pandas/_libs/lib.pyx", line 2448, in pandas._libs.lib.to_object_array
TypeError: object of type 'int' has no len()
>>> 

在 pandas 代码中很容易看出错误发生的原因。执行此操作的更好方法是什么,这样我就不会根据第一个位置出现错误?它完全符合我的要求。

最佳答案

您可以使用字典直接创建数据框:

my_dict2 = {"c": {"x": "aa", "y": "bb"}, "a": 1, "b": [1, 2, 3]}
df = pd.DataFrame(
    {"prop_name": my_dict2.keys(), "prop_value": my_dict2.values()}
)
print(df)

打印:

  prop_name              prop_value
0         c  {'x': 'aa', 'y': 'bb'}
1         a                       1
2         b               [1, 2, 3]

my_dict2 = {"a": 1, "b": [1, 2, 3], "c": {"x": "aa", "y": "bb"}} 这会产生:

  prop_name              prop_value
0         a                       1
1         b               [1, 2, 3]
2         c  {'x': 'aa', 'y': 'bb'}

注意:正如@TrentonMcKinney 在评论中所说,数据框的构造方式取决于字典的第一项 ( source):

                if isinstance(list(data.values())[0], (Series, dict)):
                    data = _from_nested_dict(data)
                else:
                    data, index = list(data.values()), list(data.keys())

所以 pd.DataFrame.from_dict({"b": 1, "a": [1, 2, 3]}, orient="index") 成功并且 pd. DataFrame.from_dict({"a": [1, 2, 3], "b": 1},orient="index") 产生错误。

关于python - 如何将 python 字典转换为 pandas 数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68749257/

相关文章:

python - 是否有任何 python 机器学习库可以返回线性 svm 的系数或几何边距?

python - 使用 groupby 获取组中具有最大值的行

python - 重新调用函数(递归)与在 Python 中使用 while 语句

python - 使用具有不同大小值的索引创建 pandas 数据框

python - 根据 pandas 中的值列表获取数据框的行

python - 矢量化数据帧查找

r - 数据框中的条件出现计算

python - Pandas - 按行交错/压缩两个数据帧

python - 与 PyOpenCL 的结构对齐

Python - 循环上的多个实例