javascript - 可以解释 JavaScript 的网络爬虫

标签 javascript web-crawler

关闭。这个问题需要更多 focused .它目前不接受答案。

想改进这个问题？更新问题，使其仅关注一个问题 editing this post .

5年前关闭。

Improve this question

我想写一个可以解释 JavaScript 的网络爬虫。基本上它是一个 Java 或 PHP 程序，它以 URL 作为输入并输出类似于 Firebug HTML 窗口中的输出的 DOM 树。最好的例子是 Kayak.com，当您“查看源代码”时，您无法在浏览器上看到生成的 DOM，但可以通过 Firebug 保存生成的 HTML。

我该怎么做呢？有哪些工具可以帮助我？

最佳答案

ruby 的Capybara是一个集成测试库，但它也可以用来编写独立的网络爬虫。鉴于它使用 Selenium 或 headless WebKit 等后端，它可以开箱即用地解释 javascript:

require 'capybara/dsl'
require 'capybara-webkit'

include Capybara::DSL
Capybara.current_driver = :webkit
Capybara.app_host = "http://www.google.com"
page.visit("/")
puts(page.html)

关于javascript - 可以解释 JavaScript 的网络爬虫，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2670082/

上一篇：javascript - 通过 Chrome 开发者工具查看来自 Ajax 调用的 HTML 响应？

下一篇：twitter-bootstrap - 将 Bootstrap 中的 dl 标签拉到左侧

相关文章：

javascript - 如何避免在 D3 中对颜色进行硬编码

sitemap - 如何为 robots.txt 中的特定爬虫机器人分配特定站点地图？

php - file_get_contents 无限客户端页面刷新

vba - 使用 VBA-Macros 抓取源代码

java - 从 JFree Spider Chart 隐藏标签

linux - TXT 文件中的 Google 搜索结果

javascript - 等待在 nextjs 页面加载 paypal 脚本

javascript - 在单个页面中管理多个 SignalR 连接

javascript - 在我的notes.js 中找不到记事本应用程序的错误

javascript - 如何从模块发送响应，向其传递 RESTIFY 中的请求和响应对象