有没有一种方法可以使用 Nokogiri 进行抓取来跟踪链接?我知道我可以提取 href 并打开它,但我想我看到了一种使用 hpricot 执行此操作的方法,并且想知道 Nokogiri 中是否有类似的东西。
最佳答案
这是一个很棒的 screen scraping guide用于使用 Ruby、Nokigiri、Hpricot 和 Firebug。
我个人非常喜欢使用 Mechanize ,这是一个 headless 浏览器,用于屏幕抓取。您可以使用 mechanize 来导航链接并填写表单,它将处理所有棘手的内容,例如 cookie。
关于screen-scraping - 使用 Nokogiri 进行抓取的链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2807500/