我正在寻找一种方法来查找域中的所有网页和子域。例如,在 uoregon.edu 域中,我想查找该域和所有子域(例如 cs.uoregon.edu)中的所有网页。
我一直在关注 nutch,我认为它可以胜任这项工作。但是,nutch 似乎下载了整个网页并将其编入索引以供以后搜索。但是,我想要一个只扫描网页以查找属于同一域的 URL 的爬虫。此外,nutch 似乎以序列化格式保存 linkdb。我怎样才能阅读它?我试过solr,它可以读取nutch收集的数据。但是,我认为我不需要 solr,因为我没有执行任何搜索。我只需要属于给定域的 URL。
谢谢
最佳答案
如果您熟悉 ruby,请考虑使用 anemone。精彩的爬虫框架。这是开箱即用的示例代码。
require 'anemone'
urls = []
Anemone.crawl(site_url)
anemone.on_every_page do |page|
urls << page.url
end
end
https://github.com/chriskite/anemone
免责声明:您需要使用问题中的补丁来抓取子域,并且您可能需要考虑添加最大页数。
关于url - 查找域及其子域中的所有网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10272920/