有许多工具可以使用 javascript 抓取 HTML 页面,但是是否有任何工具可以使用 javascript 抓取,包括按下作为 javascript 回调的按钮?
我目前正在尝试抓取一个仅通过 javascript 调用导航的网站。所有指向内容的按钮都在看不到 href 的情况下执行 javascript。我可以对 javascript 调用进行逆向工程(这样做会部分返回 HTML),但这需要一些时间,有什么捷径吗?
最佳答案
我使用 htmlunit ,通常包装在基于 Java 的脚本语言中,如 JRuby。 HtmlUnit 很棒,因为它的 JavaScript 引擎处理所有动态功能,包括幕后的 AJAX。使其非常容易抓取。
关于javascript - Web Scraping 基于 javascript 的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1426948/