ssl - Nutch 的 HTTPS 抓取问题

我想使用带有 java7 的 nutch 1.9 抓取 https 站点

在 seed.txt 中

https://site.com

在 regex-urlfilter.txt 中

+^https://([a-z0-9]*\.)*site.com/

但是当使用 bin/crawl ... 运行 crawlig 进程时，我得到了一个 javax.net.ssl.SSLProtocolException: handshake alert: unrecognized_name

最佳答案

我得到了抓取具有默认证书的网站的解决方案，我希望这可以帮助其他遇到此问题的人。

本论坛的一些帖子提到了添加参数-Djsse.enableSNIExtension=false 但是放在哪里呢？我使用 nano 编辑了 nucth 文件并在 NUTCH_OPTS 中添加了这个参数在 nutch 1.9 中，它位于第 195 行，现在是

NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false)

之后爬取成功，没有中断

关于ssl - Nutch 的 HTTPS 抓取问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27297622/