java - 用于爬网的 headless Java HTTP 客户端?

标签 java javascript web-testing web-crawler

我正在四处寻找用 Java 编写的抓取工具,以检测我们网站中的无效 url。

困难在于大部分 url 是使用 javaScript、CSS3 和 Ajax 完成的。所以仅仅获取网站 url 的内容是不行的。

理想的是一个 headless 工具,它能够执行 javaScript、CSS 样式和 AJAX 调用,并吐出它在这样做时访问的各种 url。

我确实意识到这是一项艰巨的任务,但也许它存在于某个地方?

最佳答案

我建议在 http://htmlunit.sourceforge.net/ 上使用,这是为那些东西而制作的。

关于java - 用于爬网的 headless Java HTTP 客户端?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6910356/

相关文章:

java - 在 Android/Java 中跟踪回调结果代码的最佳实践?

java - 为使用 Struts 构建的网站编写中间层测试

azure - 如何使用依赖于 C# 自定义提取类的 Webtest

java - 如何阻止 Hibernate 发送垃圾邮件日志

java - 以记事本方式打开 CSV 文件,然后看不到新行

javascript - WebRTC 在同一台机器的两个页面之间

javascript - 使用jquery获取文本字段的值(文本文件包含日期)

javascript - Mongoose 中递归、返回问题中的 Promise

java - 为什么 Selenium Server 找不到定位器

url - 在 Testcafe Naviagation 中使用复制的文本更改 URL