我正在四处寻找用 Java 编写的抓取工具,以检测我们网站中的无效 url。
困难在于大部分 url 是使用 javaScript、CSS3 和 Ajax 完成的。所以仅仅获取网站 url 的内容是不行的。
理想的是一个 headless 工具,它能够执行 javaScript、CSS 样式和 AJAX 调用,并吐出它在这样做时访问的各种 url。
我确实意识到这是一项艰巨的任务,但也许它存在于某个地方?
最佳答案
我建议在 http://htmlunit.sourceforge.net/ 上使用,这是为那些东西而制作的。
关于java - 用于爬网的 headless Java HTTP 客户端?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6910356/