html - 如何使用 Perl 有效地提取 HTML 内容？

我正在用 Perl 编写一个爬虫，它必须提取驻留在同一服务器上的网页内容。我目前正在使用HTML::Extract模块来完成这项工作，但我发现该模块有点慢，所以我查看了它的源代码，发现它没有对LWP::UserAgent使用任何连接缓存。。

我最后的手段是抢HTML::Extract的源代码并修改它以使用缓存，但我真的想尽可能避免这种情况。有谁知道任何其他模块可以更好地执行相同的工作？我基本上只需要抓取 <body> 中的所有文本删除了 HTML 标签的元素。

最佳答案

我使用pQuery用于我的网络抓取。但我也听说过关于Web::Scraper的好消息.

这两个模块以及其他模块都出现在 SO 上针对与您类似问题的答案中:

关于html - 如何使用 Perl 有效地提取 HTML 内容？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1409799/