ssl - Nutch 的 HTTPS 抓取问题

标签 ssl web-crawler nutch

我想使用带有 java7 的 nutch 1.9 抓取 https 站点

在 seed.txt 中

https://site.com

在 regex-urlfilter.txt 中

+^https://([a-z0-9]*\.)*site.com/

但是当使用 bin/crawl ... 运行 crawlig 进程时,我得到了一个 javax.net.ssl.SSLProtocolException: handshake alert: unrecognized_name

最佳答案

我得到了抓取具有默认证书的网站的解决方案,我希望这可以帮助其他遇到此问题的人。

本论坛的一些帖子提到了添加参数-Djsse.enableSNIExtension=false 但是放在哪里呢? 我使用 nano 编辑了 nucth 文件并在 NUTCH_OPTS 中添加了这个参数 在 nutch 1.9 中,它位于第 195 行,现在是

NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false)

之后爬取成功,没有中断

关于ssl - Nutch 的 HTTPS 抓取问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27297622/

相关文章:

java - 握手失败/没有共同的密码套件 - SymmetricDS 3.1.5

javascript - 传递参数(如变量)以在 casperjs 中进行评估并登录站点

java - 使用 JSoup 聚合数据

web-crawler - Nutch vs Heritrix vs Stormcrawler vs MegaIndex vs Mixnode

nutch - nutch 1.3 中重新抓取 URL

java - 正则表达式匹配 6 级或更多级别的 URL

ssl - IMAP 的 Javamail 和 TLS 身份验证

windows - 在 Windows 中生成 SSL key 和证书

python - 在 Windows 服务器上用 scrapy 阻塞线程

apache - 在子目录中使用 https ://AND www. 和 cloudflare