url - 查找域及其子域中的所有网页

标签 url solr web-crawler nutch

我正在寻找一种方法来查找域中的所有网页和子域。例如,在 uoregon.edu 域中,我想查找该域和所有子域(例如 cs.uoregon.edu)中的所有网页。

我一直在关注 nutch,我认为它可以胜任这项工作。但是,nutch 似乎下载了整个网页并将其编入索引以供以后搜索。但是,我想要一个只扫描网页以查找属于同一域的 URL 的爬虫。此外,nutch 似乎以序列化格式保存 linkdb。我怎样才能阅读它?我试过solr,它可以读取nutch收集的数据。但是,我认为我不需要 solr,因为我没有执行任何搜索。我只需要属于给定域的 URL。

谢谢

最佳答案

如果您熟悉 ruby​​,请考虑使用 anemone。精彩的爬虫框架。这是开箱即用的示例代码。

require 'anemone'

urls = []

Anemone.crawl(site_url)
  anemone.on_every_page do |page|
    urls << page.url
  end
end

https://github.com/chriskite/anemone

免责声明:您需要使用问题中的补丁来抓取子域,并且您可能需要考虑添加最大页数。

关于url - 查找域及其子域中的所有网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10272920/

相关文章:

django - 检查重定向网址是否存在

elasticsearch - 访问 ElasticSearch 文档的标准化标记

regex - 使用 xpath 或 regexp 设置 import.io 爬虫

python - ScraPy蜘蛛爬行但不导出

python - 连接到在本地主机上运行的 solr 服务器

python - 如何提取 BeautifulSoup 中 <em> 标签外的文本

php - SSL 网站在子 URL 中附加 https

c++ - Qt - 如何在特定浏览器中打开网站

java - 在方法级别而不是类级别的基本 Jax-RS PATH 配置

Solr-检索找到该单词的文档名称