html - 我应该使用 HTML::Parser 还是 XML::Parser 来提取和替换文本?

标签 html xml perl parsing

<分区>

我希望能够从 HTML/XHTML 文档中提取所有纯文本并进行分析/修改,然后在需要时进行替换。我可以使用 HTML::Parser 来做到这一点吗?或者应该是 XML::Parser

有没有人知道的任何好的演示?

最佳答案

HTML::Parser 的方法基于标记和回调。当您希望提取或更改数据的上下文条件特别复杂时,我发现它非常方便。

否则我更喜欢基于树的方法。 HTML::TreeBuilder::XPath (最终基于 HTML::Parser)允许您使用 XPath 查找节点。它返回 HTML::Element秒。文档有点稀缺(好吧,分布在几个模块中)。但仍然是挖掘 HTML 的快速方法。

如果您处理纯 XML,XML::Twig是一个出色的解析器:非常好的内存管理,允许结合树和流方法。而且文档非常好。

关于html - 我应该使用 HTML::Parser 还是 XML::Parser 来提取和替换文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2220442/

相关文章:

html - 菜单项之间的间距 (CSS)

android - 在 Android 中将已解析的 Xml 数据显示到 ListView

xml - 在换行符上使用 XML 属性是否有效?

mysql - 为什么我的 Perl 脚本在同一台计算机上的 Windows 8.1 上运行缓慢,而在 8.0 上运行良好?

git - 安装 SVN::Core 时出现 sqlite 问题

Perl 以最有效的方式在重复模式上拆分字符串?

javascript - 如何将焦点设置到溢出 :scroll 的 div

c# - 如果表单未通过验证,密码字段是否应保留其值?

android - 为布局设置动画旋转重复返回

javascript - 显示当前日期前 2 天的日期名称