我想使用带有 java7 的 nutch 1.9 抓取 https 站点
在 seed.txt 中
https://site.com
在 regex-urlfilter.txt 中
+^https://([a-z0-9]*\.)*site.com/
但是当使用 bin/crawl ...
运行 crawlig 进程时,我得到了一个 javax.net.ssl.SSLProtocolException: handshake alert: unrecognized_name
最佳答案
我得到了抓取具有默认证书的网站的解决方案,我希望这可以帮助其他遇到此问题的人。
本论坛的一些帖子提到了添加参数-Djsse.enableSNIExtension=false
但是放在哪里呢?
我使用 nano 编辑了 nucth 文件并在 NUTCH_OPTS 中添加了这个参数
在 nutch 1.9 中,它位于第 195 行,现在是
NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false)
之后爬取成功,没有中断
关于ssl - Nutch 的 HTTPS 抓取问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27297622/