java - 使用 crawler4j 抓取 https 页面

标签 java ssl https crawler4j

几个月来,我们一直在使用 crawler4j 来抓取 https 站点。突然之间,自上周五以来,我们无法抓取同一个 https 站点。 https 协议(protocol)有什么变化吗? 网址是https://enot.publicprocurement.be/enot-war/home.do

作为测试,直接抓取标题:Welkom op het platform e-Notification

非常感谢任何帮助。

最佳答案

我发现它在设置 CrawlConfig 时效果最好

 CrawlConfig config = new CrawlConfig();
 config.setIncludeHttpsPages(true);
 config.setUserAgentString("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36");
 PageFetcher pageFetcher = new PageFetcher(config);

关于java - 使用 crawler4j 抓取 https 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21405536/

相关文章:

node.js - textarea 和 input HTML 元素之间的安全差异?

java - 如何根据外部事件触发作业

java - 不存在 Java 运行时,请求安装

java - 如何在 Java 1.6 中使用 ECC 私钥?

php - 如何构建 PHP 内容以用于非安全 (http ://) and secure (https://) areas and across multiple directories?

Javascript "Permission Denied"IE.x 中的错误

java - Controller 未在 .jsp 页面上触发 MVC Spring JAVA

java - 需要帮助让数字一直翻倍到中间

ssl - 带 SSL 的 MAMP 2 多个虚拟主机

javascript - NodeJS,在 TLS 服务器上获取客户端 IP