Perl 网络爬虫框架

标签 perl frameworks screen-scraping web-crawler

多年来我一直在使用 Perl 为各种不同的目的进行爬取和抓取,一直困扰我的一件事是虽然有大量用于小规模抓取和抓取的 CPAN 模块,例如 LWP、WWW::Mechanize、Web::Scraper、AnyEvent::HTTP,以及现在的 Mojo::UserAgent,似乎没有像其他语言那样的任何爬行框架。

例如 Apache Nutch (/Droids) 和 Scrapy (Python)。

有人知道 Perl 中的任何等效项目吗?

最佳答案

您可能需要查看诸如 HTML::Robot::Scraper 之类的模块或者 HTTP::UserAgentString::Robot我认为还有一些 robot以他们的名义。

关于Perl 网络爬虫框架,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19571632/

相关文章:

excel - UIPath:将抓取的信息导出到电子表格

javascript - node.js 中的 Zombie.js 无法抓取某些网站

Python 网页抓取 - 下载文件并将所有数据存储在 xml 中

perl - 如何递归遍历嵌套的哈希数据结构?

database - Yii 记录未插入数据库

ios - Xcode Crash IOS APP:dyld:未加载库,原因:未找到图像

Django Rest框架api权限

perl - XML::LibXSLT 间歇性地抛出样式表编译错误

perl - Perl 中的彩色终端输出

regex - Perl Regex 试图读取我评论中的宏