java - 使用 crawler4j 抓取 https 页面

标签 java ssl https crawler4j

几个月来，我们一直在使用 crawler4j 来抓取 https 站点。突然之间，自上周五以来，我们无法抓取同一个 https 站点。 https 协议(protocol)有什么变化吗？网址是https://enot.publicprocurement.be/enot-war/home.do

作为测试，直接抓取标题:Welkom op het platform e-Notification

非常感谢任何帮助。

最佳答案

我发现它在设置 CrawlConfig 时效果最好

 CrawlConfig config = new CrawlConfig();
 config.setIncludeHttpsPages(true);
 config.setUserAgentString("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36");
 PageFetcher pageFetcher = new PageFetcher(config);

关于java - 使用 crawler4j 抓取 https 页面，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21405536/

上一篇：java - 无法在 Java 中设置客户端 X509 身份验证

下一篇：java - 如何建立到 mail.google.com 的单向 SSL 连接？

java - 如何根据外部事件触发作业

java - 不存在 Java 运行时，请求安装

java - 如何在 Java 1.6 中使用 ECC 私钥？

php - 如何构建 PHP 内容以用于非安全 (http ://) and secure (https://) areas and across multiple directories?

Javascript "Permission Denied"IE.x 中的错误

java - Controller 未在 .jsp 页面上触发 MVC Spring JAVA

java - 需要帮助让数字一直翻倍到中间

ssl - 带 SSL 的 MAMP 2 多个虚拟主机

javascript - NodeJS，在 TLS 服务器上获取客户端 IP