web-scraping - 多页表单(Nokogiri、Scrapy、其他？)

我读过例如 Nokogiri/Mechanize (Ruby) 不擅长遍历多个页面，但使用 Ajax 的站点可能会更好。

我想抓取的网站是多页表单，带有一些 ajax 覆盖。速度很重要。这些网站都显示价格，所以我正在制作一个价格聚合器。

最佳答案

我将 Capybara 与 Webkit 一起用于 headless 浏览器。

您还需要安装 capybara gem 和 webkit gem。

https://github.com/thoughtbot/capybara-webkit

语法非常简单。

agent.visit 'some url'
agent.execute_script 'javascript here'

gem 也有页面管理，或者你可以简单地通过执行 javascript 返回来返回上一页。

ag.execute_script("window.history.go(-1)")

关于web-scraping - 多页表单(Nokogiri、Scrapy、其他？)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29353514/