我正在用 Perl 编写一个爬虫,它必须提取驻留在同一服务器上的网页内容。我目前正在使用HTML::Extract模块来完成这项工作,但我发现该模块有点慢,所以我查看了它的源代码,发现它没有对LWP::UserAgent使用任何连接缓存。 。
我最后的手段是抢HTML::Extract
的源代码并修改它以使用缓存,但我真的想尽可能避免这种情况。有谁知道任何其他模块可以更好地执行相同的工作?我基本上只需要抓取 <body>
中的所有文本删除了 HTML 标签的元素。
最佳答案
我使用pQuery用于我的网络抓取。但我也听说过关于Web::Scraper的好消息.
这两个模块以及其他模块都出现在 SO 上针对与您类似问题的答案中:
关于html - 如何使用 Perl 有效地提取 HTML 内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1409799/