xml - 与在 Dom4J 中使用 DOM 相比,XPath 的效率如何?

标签 xml dom xpath dom4j

例如考虑以下 xml

<root>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
</root>

使用 DOM 获取根节点,然后循环遍历 childNode 和 grandChildNode 效率高还是使用 XPath 表达式收集子节点和 grandChild 节点的详细信息效率高?

最佳答案

如果您想要完整地处理一个 XML 文档,就反序列化时间、CPU 使用率和内存使用率而言,将 XML 解析为 DOM 几乎总是效率最低的。

解析为 DOM 需要大约 10-15 倍的内存,因为 XML 文档需要磁盘空间。例如,一个 1 兆字节的 XML 文档将解析为一个占用 10-15 兆字节内存的 DOM。

只有在您打算修改部分或全部数据然后将结果放回 XML 文档时才解析为 DOM。对于所有其他用例,DOM 是一个糟糕的选择。

XPath 占用的资源通常要少得多,但这取决于文档的长度(即您有多少“childNode”元素)和您感兴趣的数据在文档中的位置。

XPath 内存使用量和完成时间往往会随着文档的深入而增加。例如,假设您有一个包含 20,000 个 childNode 元素的 XML 文档,每个 childNode 都有一个您事先知道的唯一标识符,并且您想从文档中提取一个已知的 childNode。提取第 18,345 个子节点将比提取第 3 个子节点使用更多、更多、更多的内存。

因此,如果您使用 XPath 提取所有 childNode 元素,您可能会发现它的效率低于解析为 DOM 的效率。 XPath 通常是提取 XML 文档的一部分的简单方法。我不建议使用它来处理所有 XML 文档。

到目前为止,如果您确实希望提取和处理 XML 文档中的所有数据,最好的方法是使用基于 SAX 的阅读器。与任何其他方法相比,这将是两个数量级的速度和更少的资源消耗。

也就是说,它还取决于您要处理的数据量。对于您提供的示例 XML 文档,您不会注意到任何实际差异。是的,DOM 会“慢”而 SAX 会“快”,但我们说的是毫秒级或微秒级的差异。

SAX 可以轻松地比 DOM 快数百或数千倍,但是如果这就是 2 微秒和 2 毫秒之间的差异,您将不会注意到。当您处理包含 20,000 个 childNode 元素的文档时,2 秒与 200 秒将成为一个更大的问题。

关于xml - 与在 Dom4J 中使用 DOM 相比,XPath 的效率如何?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/700747/

相关文章:

xml - XSLT 中丢弃的 xml 中的换行符 <br>

PHP 如何点击一个 url 并下载它的 xml

java - 如何在 java 中生成一个大的(30MB+)xml 文件?

java - Selenium :使用getLocation和getSize与Element交互

html - Windows PowerShell 解析 HTML 本地文件

python - 使用XPath获取网页数据

c# - 尝试读取性能计数器时出现 Azure 自动缩放异常

xml - 使用 Groovy+Smooks 向现有 XML 添加命名空间声明

javascript - HTML DOM 警报 style.width

jquery - 如何用jQuery提交数据?