url - 查找域及其子域中的所有网页

我正在寻找一种方法来查找域中的所有网页和子域。例如，在 uoregon.edu 域中，我想查找该域和所有子域(例如 cs.uoregon.edu)中的所有网页。

我一直在关注 nutch，我认为它可以胜任这项工作。但是，nutch 似乎下载了整个网页并将其编入索引以供以后搜索。但是，我想要一个只扫描网页以查找属于同一域的 URL 的爬虫。此外，nutch 似乎以序列化格式保存 linkdb。我怎样才能阅读它？我试过solr，它可以读取nutch收集的数据。但是，我认为我不需要 solr，因为我没有执行任何搜索。我只需要属于给定域的 URL。

谢谢

最佳答案

如果您熟悉 ruby，请考虑使用 anemone。精彩的爬虫框架。这是开箱即用的示例代码。

require 'anemone'

urls = []

Anemone.crawl(site_url)
  anemone.on_every_page do |page|
    urls << page.url
  end
end

https://github.com/chriskite/anemone

免责声明:您需要使用问题中的补丁来抓取子域，并且您可能需要考虑添加最大页数。

关于url - 查找域及其子域中的所有网页，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10272920/

上一篇：scala - 如何使用SCALA在Spark数据框中添加多个列

下一篇：css - 在嵌套 div 中选择第一个 child

相关文章：

django - 检查重定向网址是否存在

elasticsearch - 访问 ElasticSearch 文档的标准化标记

regex - 使用 xpath 或 regexp 设置 import.io 爬虫

python - ScraPy蜘蛛爬行但不导出

python - 连接到在本地主机上运行的 solr 服务器

python - 如何提取 BeautifulSoup 中 <em> 标签外的文本

php - SSL 网站在子 URL 中附加 https

c++ - Qt - 如何在特定浏览器中打开网站

java - 在方法级别而不是类级别的基本 Jax-RS PATH 配置

Solr-检索找到该单词的文档名称