javascript - 可以解释 JavaScript 的网络爬虫

标签 javascript web-crawler

关闭。这个问题需要更多 focused .它目前不接受答案。












想改进这个问题?更新问题,使其仅关注一个问题 editing this post .


5年前关闭。







Improve this question




我想写一个可以解释 JavaScript 的网络爬虫。基本上它是一个 Java 或 PHP 程序,它以 URL 作为输入并输出类似于 Firebug HTML 窗口中的输出的 DOM 树。最好的例子是 Kayak.com,当您“查看源代码”时,您无法在浏览器上看到生成的 DOM,但可以通过 Firebug 保存生成的 HTML。

我该怎么做呢?有哪些工具可以帮助我?

最佳答案

ruby 的Capybara是一个集成测试库,但它也可以用来编写独立的网络爬虫。鉴于它使用 Selenium 或 headless WebKit 等后端,它可以开箱即用地解释 javascript:

require 'capybara/dsl'
require 'capybara-webkit'

include Capybara::DSL
Capybara.current_driver = :webkit
Capybara.app_host = "http://www.google.com"
page.visit("/")
puts(page.html)

关于javascript - 可以解释 JavaScript 的网络爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2670082/

相关文章:

javascript - 如何避免在 D3 中对颜色进行硬编码

sitemap - 如何为 robots.txt 中的特定爬虫机器人分配特定站点地图?

php - file_get_contents 无限客户端页面刷新

vba - 使用 VBA-Macros 抓取源代码

java - 从 JFree Spider Chart 隐藏标签

linux - TXT 文件中的 Google 搜索结果

javascript - 等待在 nextjs 页面加载 paypal 脚本

javascript - 在单个页面中管理多个 SignalR 连接

javascript - 在我的notes.js 中找不到记事本应用程序的错误

javascript - 如何从模块发送响应,向其传递 RESTIFY 中的请求和响应对象