ruby - 使用 Mechanize 检索网站的所有链接

标签 ruby recursion mechanize web-crawler

如何使用 Mechanize 库查找网站上的所有链接?

我想递归地解析内部链接,以获取网站的所有链接。

最佳答案

你看过Anemone吗? gem ?它是专门为蜘蛛网站创建的。

您可以执行以下操作来抓取并打印网站的所有链接:

require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.focus_crawl { |page| puts page.links }
end

它有相当详细的记录,其中包含选项,可以选择是否要抓取整个侧面、排除某些类型的链接或排除类似的链接。

关于ruby - 使用 Mechanize 检索网站的所有链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11613241/

相关文章:

css - 如何从此 : 获取文本 "Job id"

ruby-on-rails - CGI::escapeHTML 正在转义单引号

ruby-on-rails - 如何创建类似于 javascript throttle/debounce 函数的 Rails/Ruby 方法

Haskell - 递归堆栈

ruby - 用多边形近似形状

java - 递归 - Kata 挑战

c# - 三位数字的递归排列

ruby - 尝试图像抓取时出错

python - 如何使用 Python 从 HTML 中提取它?

python - 屏幕抓取 : getting around "HTTP Error 403: request disallowed by robots.txt"