几个月来,我们一直在使用 crawler4j 来抓取 https 站点。突然之间,自上周五以来,我们无法抓取同一个 https 站点。 https 协议(protocol)有什么变化吗? 网址是https://enot.publicprocurement.be/enot-war/home.do
作为测试,直接抓取标题:Welkom op het platform e-Notification
非常感谢任何帮助。
最佳答案
我发现它在设置 CrawlConfig 时效果最好
CrawlConfig config = new CrawlConfig();
config.setIncludeHttpsPages(true);
config.setUserAgentString("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36");
PageFetcher pageFetcher = new PageFetcher(config);
关于java - 使用 crawler4j 抓取 https 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21405536/