python - 用 python 处理 xml

我需要删除 xml 标签之间的空格，例如如果原始 xml 如下所示:

<node1>
    <node2>
        <node3>foo</node3>
    </node2>
</node1>

我希望最终结果压缩为单行:

<node1><node2><node3>foo</node3></node2></node1>

请注意，我无法控制 xml 结构，因此该解决方案应该足够通用，能够处理任何有效的 xml。此外，xml 可能包含 CDATA block ，我需要将其从这个处理中排除并保持原样。

到目前为止我有几个想法:(1)将 xml 解析为文本并查找标记 < 和 > 的开始和结束(2)另一种方法是加载 xml 文档并逐个节点打印通过连接标签生成新文档。

我认为这两种方法都可以，但我不想在这里重新发明轮子，所以可能有一个 python 库已经做了类似的事情？如果没有，那么在推出我自己的 cruncher 时需要注意的任何问题/陷阱？有什么建议吗？

编辑谢谢大家的回答/建议，Triptych 和 Van Gale 的解决方案都对我有用，并且完全按照我的意愿行事。希望我能接受这两个答案。

最佳答案

这很容易用 lxml 处理(注意:这个特殊功能不在 ElementTree 中):

from lxml import etree

parser = etree.XMLParser(remove_blank_text=True)

foo = """<node1>
    <node2>
        <node3>foo  </node3>
    </node2>
</node1>"""

bar = etree.XML(foo, parser)
print etree.tostring(bar,pretty_print=False,with_tail=True)

结果:

<node1><node2><node3>foo  </node3></node2></node1>

编辑:Triptych 的回答让我想起了 CDATA 要求，因此创建解析器对象的行实际上应该如下所示:

parser = etree.XMLParser(remove_blank_text=True, strip_cdata=False)

关于python - 用 python 处理 xml，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/667359/

python - 用 python 处理 xml

上一篇：c# - 有没有一种快速的方法来格式化 XmlDocument 以便在 C# 中显示？

下一篇：xml - Visual Studio 2013 IntelliSense 无法使用特定的 web.config 文件