我正在寻找一种有效的方法来比较和获取两个基于 XML 的解析树之间的差异。
您认为存储这些差异的最佳方式是什么?我会这样做:
XML A:
<w:p>
<w:pPr>
<w:spacing w:after="1"/>
</w:pPr>
<w:r>
<w:t>World</w:t>
</w:r>
</w:p>
XML B:
<w:p>
<w:pPr>
<w:spacing w:after="1"/>
</w:pPr>
<w:r>
<w:t>ASDF</w:t>
</w:r>
</w:p>
算法确定“World”已更改为“ASDF”,然后存储:
div: <w:p><w:r><w:t>World</w:t> -> <w:p><w:r><w:t>ASDF</w:t>
这足以涵盖所有可能发生的情况吗?
有人知道这样做的好方法吗?非常感谢任何帮助!
最佳答案
它可能会变得更难。看这个例子:
<w:p>
<w:pPr>
<w:spacing w:after="1"/>
</w:pPr>
<w:r>
<w:t>World</w:t> <-- Case 1: this changes to <w:t>ASDF</w:t>
<w:t>World</w:t> <-- Case 2: this changes to <w:t>ASDF</w:t>
</w:r>
</w:p>
为了能够识别这两种情况,您必须将一个存储为
div: <w:p><w:r><w:t>World</w:t> -> <w:p><w:r><w:t>ASDF</w:t>
另一个是
div: <w:p><w:r><w:t>World</w:t><w:t>World</w:t> -> <w:p><w:r><w:t>World</w:t><w:t>ASDF</w:t>
或类似的东西(您可能还想为它们添加“w:p”结束标记,使它们成为有效的 XML 子树)。
一般来说,这样的程序会变得非常复杂,所以我不建议您创建一些全新的东西,而是使用一些现有的 diff 算法(即使不解析 XML 结构,大多数算法也足够好)或修改一个满足您的需求。
关于XML 版本控制算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/668998/