关闭。这个问题需要更多 focused .它目前不接受答案。
想改进这个问题?更新问题,使其仅关注一个问题 editing this post .
5年前关闭。
Improve this question
我想写一个可以解释 JavaScript 的网络爬虫。基本上它是一个 Java 或 PHP 程序,它以 URL 作为输入并输出类似于 Firebug HTML 窗口中的输出的 DOM 树。最好的例子是 Kayak.com,当您“查看源代码”时,您无法在浏览器上看到生成的 DOM,但可以通过 Firebug 保存生成的 HTML。
我该怎么做呢?有哪些工具可以帮助我?
最佳答案
ruby 的Capybara是一个集成测试库,但它也可以用来编写独立的网络爬虫。鉴于它使用 Selenium 或 headless WebKit 等后端,它可以开箱即用地解释 javascript:
require 'capybara/dsl'
require 'capybara-webkit'
include Capybara::DSL
Capybara.current_driver = :webkit
Capybara.app_host = "http://www.google.com"
page.visit("/")
puts(page.html)
关于javascript - 可以解释 JavaScript 的网络爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2670082/