java - 用于爬网的 headless Java HTTP 客户端？

我正在四处寻找用 Java 编写的抓取工具，以检测我们网站中的无效 url。

困难在于大部分 url 是使用 javaScript、CSS3 和 Ajax 完成的。所以仅仅获取网站 url 的内容是不行的。

理想的是一个 headless 工具，它能够执行 javaScript、CSS 样式和 AJAX 调用，并吐出它在这样做时访问的各种 url。

我确实意识到这是一项艰巨的任务，但也许它存在于某个地方？

最佳答案

我建议在 http://htmlunit.sourceforge.net/ 上使用，这是为那些东西而制作的。

关于java - 用于爬网的 headless Java HTTP 客户端？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6910356/

相关文章：

java - 在 Android/Java 中跟踪回调结果代码的最佳实践？