html - 我应该使用 HTML::Parser 还是 XML::Parser 来提取和替换文本？

<分区>

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。

要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describe the problem以及迄今为止为解决该问题所做的工作。

关闭 9 年前。

我希望能够从 HTML/XHTML 文档中提取所有纯文本并进行分析/修改，然后在需要时进行替换。我可以使用 HTML::Parser 来做到这一点吗？或者应该是 XML::Parser ？

有没有人知道的任何好的演示？

最佳答案

HTML::Parser 的方法基于标记和回调。当您希望提取或更改数据的上下文条件特别复杂时，我发现它非常方便。

否则我更喜欢基于树的方法。 HTML::TreeBuilder::XPath (最终基于 HTML::Parser)允许您使用 XPath 查找节点。它返回 HTML::Element秒。文档有点稀缺(好吧，分布在几个模块中)。但仍然是挖掘 HTML 的快速方法。

如果您处理纯 XML，XML::Twig是一个出色的解析器:非常好的内存管理，允许结合树和流方法。而且文档非常好。

关于html - 我应该使用 HTML::Parser 还是 XML::Parser 来提取和替换文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2220442/

相关文章：

html - 菜单项之间的间距 (CSS)