web-scraping - 多页表单(Nokogiri、Scrapy、其他?)

标签 web-scraping scrapy mechanize mechanize-python mechanize-ruby

我读过例如 Nokogiri/Mechanize (Ruby) 不擅长遍历多个页面,但使用 Ajax 的站点可能会更好。

我想抓取的网站是多页表单,带有一些 ajax 覆盖。速度很重要。这些网站都显示价格,所以我正在制作一个价格聚合器。

最佳答案

我将 Capybara 与 Webkit 一起用于 headless 浏览器。

您还需要安装 capybara gem 和 webkit gem。

https://github.com/thoughtbot/capybara-webkit

语法非常简单。

agent.visit 'some url'
agent.execute_script 'javascript here'

gem 也有页面管理,或者你可以简单地通过执行 javascript 返回来返回上一页。
ag.execute_script("window.history.go(-1)")

关于web-scraping - 多页表单(Nokogiri、Scrapy、其他?),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29353514/

相关文章:

python - 单击 html 表单按钮到 scrapy/python 中的下一页

Ruby Mechanize,填充动态表单/发送 JSON(Airbnb 日历)

Perl Mechanize 超时不适用于 https

python - 使用 BeautifulSoup 提取 HTML 注释之间的文本

javascript - 如果没有包含特定内容的 iframe 元素,recaptcha 不会显示在 phantomjs 中

python - 使用 Scrapy 进行 NTLM 身份验证以进行网络抓取

python - 没有标签的 Scrapy 提取 URL (href) 元素

python - Scrapy:错误:处理错误

ruby-on-rails - Rescue - NoMethodError -- 铜管类的未定义方法日志

python - 从无限滚动的网页获取所有文章链接?