Python:解析 XML 自动添加所有键/值对

我找了很久，也尝试了很多!但我无法接受这个完全简单的场景。我需要说的是，我是一个 python 新手，但是一个非常好的 bash 编码器；o) 我已经用 python 编写了一些代码，但也许还有很多我需要学习，所以不要对我太严厉；o) 我我愿意学习，我阅读了 python 文档和许多示例，并自己尝试了很多，但现在我正处于在黑暗中挑选的地步..

我解析以 XML 形式提供的内容。它大约有 20-50 MB 大。我的 XML 示例:

<MAIN>
  <NOSUBEL>abcd</NOSUBEL>
  <NOSUBEL2>adasdasa</NOSUBEL2>
  <MULTISUB>
    <WHATEVER>
      <ANOTHERSUBEL>
        <ANOTHERONE>
          (how many levels can not be said / can change)
        </ANOTHERONE>
      </ANOTHERSUBEL>
     </WHATEVER>
   </MULTISUB>..
   <SUBEL2>
     <FOO>abcdefg</FOO>
   </SUBEL2>
   <NOSUBEL3>abc</NOSUBEL3>
   ... 
   and so on 
</MAIN>

这是解析它的主要部分(如果您需要更多详细信息，请询问):

from lxml import etree
resp = my.request(some call args)
xml = etree.XML(resp)

for element in xml.findall(".//MAIN"):

   # this works fine but is not generic enough:   
   my_dict = OrderedDict()
   for only1sub in element.iter(tag="SUBEL2"):
        for i in only1sub:
            my_dict[i.tag] = i.text

这对于 1 个子元素来说效果很好，但这意味着我需要知道树中哪个有子元素，哪个没有。这将来可能会改变或添加。另一个问题是MULTISUB。通过上面的代码，我可以解析直到第一个标签。

目标

我想要实现的是 - 最好的是:

A) 有一个函数/代码片段能够解析整个 XML 内容，如果有子元素(例如“if len(x)”或其他)，则解析到下一个级别，直到达到一个级别没有子元素/树。然后继续B)

B) 对于找到的每个没有子元素的 XML 标签，我想使用标签名称和标签文本更新字典。

C)我想对所有可用元素执行此操作 - 标签和直接子标签名称(例如“NOSUBEL2”或“MULTISUB”)将不会更改(经常)，因此它将是可以使用它们作为解析的起点。

到目前为止，我尝试的是链接几个循环，例如 for 、 while 和 for Again 等等，但没有一个完全成功。我还深入研究了 python 生成器，因为我认为我可以使用 next() 函数做一些事情，但也什么也做不了。但我可能不知道如何正确使用它们，所以我对每个答案都很高兴。

最后我相信我需要的东西是如此简单。我只想从标签名称和标签内容中获取键值对，这不是那么难吗？非常感谢任何帮助..

你能帮助我实现目标吗？

(非常感谢您阅读到这里!)

最佳答案

您正在寻找的是recursion - 一种在该过程内部运行某个过程的技术，但针对原始问题的子问题。在这种情况下:对于某个元素的每个子元素运行此过程(如果有子元素)或使用元素的标签名称和文本更新字典。

我假设最后您对字典( OrderedDict )感兴趣，其中包含整个元素树的叶子(没有子元素的节点)标签名称/文本值的“平面表示”，在您的情况下，打印出来，看起来像这样:

OrderedDict([('NOSUBEL', 'abcd'), ('NOSUBEL2', 'adasdasa'), ('ANOTHERONE', '(how many levels can not be said / can change)'), ('FOO', 'abcdefg'), ('NOSUBEL3', 'abc')])

通常，您将定义一个函数，该函数将使用部分数据调用自身(在本例中:子元素，如果有的话)或执行某些操作(在本例中:更新字典的某些实例)。

由于我不知道 my.request 调用背后的详细信息，因此我根据您提供的内容，通过解析包含有效 XML 的字符串来替换它。只需替换构造 tree 对象即可。

resp = """<MAIN>
    <NOSUBEL>abcd</NOSUBEL>
    <NOSUBEL2>adasdasa</NOSUBEL2>
    <MULTISUB>
        <WHATEVER>
            <ANOTHERSUBEL>
                <ANOTHERONE>(how many levels can not be said / can change)</ANOTHERONE>
            </ANOTHERSUBEL>
        </WHATEVER>
    </MULTISUB>
    <SUBEL2>
        <FOO>abcdefg</FOO>
    </SUBEL2>
    <NOSUBEL3>abc</NOSUBEL3>
</MAIN>"""


from collections import OrderedDict
from lxml import etree


def update_dict(element, my_dict):
    # lxml defines "length" of the element as number of its children.
    if len(element):  # If "length" is other than 0.
        for subelement in element:
            # That's where the recursion happens. We're calling the same
            # function for a subelement of the element.
            update_dict(subelement, my_dict)

    else:  # Otherwise, subtree is a leaf.
        my_dict[element.tag] = element.text


if __name__ == "__main__":
    # Change/amend it with your my.request call.
    tree = etree.XML(resp)  # That's a <MAIN> element, too.

    my_dict = OrderedDict()
    # That's the first invocation of the procedure. We're passing entire
    # tree and instance of dictionary.
    update_dict(tree, my_dict)

    print(my_dict)  # Just to see that dictionarty was filled with values.

如您所见，我没有在代码中使用任何标记名称(当然，XML 源除外)。

我还添加了集合中缺少的导入。

关于Python:解析 XML 自动添加所有键/值对，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28503666/

Python:解析 XML 自动添加所有键/值对

上一篇：python - Matplotlib:避免 X 轴拥塞

下一篇：python libtorrent save_state