<分区>
我希望能够从 HTML/XHTML 文档中提取所有纯文本并进行分析/修改,然后在需要时进行替换。我可以使用 HTML::Parser 来做到这一点吗?或者应该是 XML::Parser ?
有没有人知道的任何好的演示?
<分区>
我希望能够从 HTML/XHTML 文档中提取所有纯文本并进行分析/修改,然后在需要时进行替换。我可以使用 HTML::Parser 来做到这一点吗?或者应该是 XML::Parser ?
有没有人知道的任何好的演示?
最佳答案
HTML::Parser 的方法基于标记和回调。当您希望提取或更改数据的上下文条件特别复杂时,我发现它非常方便。
否则我更喜欢基于树的方法。 HTML::TreeBuilder::XPath (最终基于 HTML::Parser)允许您使用 XPath 查找节点。它返回 HTML::Element秒。文档有点稀缺(好吧,分布在几个模块中)。但仍然是挖掘 HTML 的快速方法。
如果您处理纯 XML,XML::Twig是一个出色的解析器:非常好的内存管理,允许结合树和流方法。而且文档非常好。
关于html - 我应该使用 HTML::Parser 还是 XML::Parser 来提取和替换文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2220442/