html - 如何使用 Perl 有效地提取 HTML 内容?

标签 html perl html-content-extraction

我正在用 Perl 编写一个爬虫,它必须提取驻留在同一服务器上的网页内容。我目前正在使用HTML::Extract模块来完成这项工作,但我发现该模块有点慢,所以我查看了它的源代码,发现它没有对LWP::UserAgent使用任何连接缓存。 。

我最后的手段是抢HTML::Extract的源代码并修改它以使用缓存,但我真的想尽可能避免这种情况。有谁知道任何其他模块可以更好地执行相同的工作?我基本上只需要抓取 <body> 中的所有文本删除了 HTML 标签的元素。

最佳答案

关于html - 如何使用 Perl 有效地提取 HTML 内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1409799/

相关文章:

c# - 如何使用此示例的 htmlagilitypack 从 HTML 中提取文本?

regex - 如何使用 RegEx 从 HTML 中提取值?

javascript - 提交表单时使用 jquery 保存和检索窗口滚动位置的最佳方法

html - AngularJS:使用 ng-repeat 动态加载 CSS 样式表

html - 使用 HTML 和 Perl 上传文件

perl - 返回数组元素的总和perl

html - img float :left - margin elements on the right

javascript - 循环创建具有多个图像的多个 Canvas 并不总是显示图像

perl - 使用 Perl 处理开发/生产库路径的好方法是什么?