Scrapy - 警告 : Remote certificate is not valid for hostname

标签 scrapy certificate-error

我正在使用带有 LinkExtractor 对象的 CrawlSpider 来抓取主页中的下一页和其他链接。我有两个链接提取器;一个抓取下一页,另一个抓取一些链接事件(参见下面的蜘蛛代码)。

我的第二个 linkExtractor 有效(事件链接),但第一个无效。
当我启动我的蜘蛛时,我的堆栈跟踪中有这个错误:

[scrapy] WARNING: Remote certificate is not valid for hostname "marathons.ahotu.fr"; u'ssl390453.cloudflaressl.com'!=u'marathons.ahotu.fr'

实际上我是 Python 和 Scrapy 的新手,所以我的问题是:
  • 这是什么意思 ?
  • 我该如何解决?

  • 这是我的蜘蛛代码:
    import scrapy
    import os
    import re
    from scrapy.spiders import CrawlSpider, Rule
    from scrapy.linkextractors import LinkExtractor
    from scrapy.selector import Selector
    
    if os.path.isfile('ListeCAP_Marathons_ahotu.csv'):
        reecritureFichier = open('ListeCAP_Marathons_ahotu.csv', 'w')
        reecritureFichier.truncate()
        reecritureFichier.close()
    
    class MySpider(CrawlSpider):
        name = 'ListeCAP_Marathons_ahotu'
        start_urls = ['https://marathons.ahotu.fr/calendrier']
    
        rules = (
            # LINKEXTRACTOR N°1 = NEXT PAGES
            Rule(LinkExtractor(allow=('https://marathons.ahotu.fr/calendrier?page=[0-9]{1,100}#list-top',),),),
    
            # LINKEXTRACTOR N°2 = EVENTS LINKS
            Rule(LinkExtractor(allow=('https://marathons.ahotu.fr/evenement/.+',),),follow=True,callback='parse_item'),      
        )     
    
        def parse_item(self, response):  
            selector = Selector(response)
            yield{
                'nom_even':selector.xpath('/html/body/div[2]/div[2]/h1/span[@itemprop="name"]/text()').extract(),
        }    
    
            print('--------------------> NOM DE L\'EVENEMENT :', selector.xpath('//*[@id="jog"]/div[2]/section/article/header/h1/text()').extract())
    

    (我将 Scrapy 1.4.0 与 Twisted-17.9.0 一起使用)

    最佳答案

    您无法修复此类错误。您能做的最好的事情是向域管理员发送消息,让他/她知道证书有问题(在这种情况下,证书适用于其他域,而不是 marathons.arotu.fr)。

    关于Scrapy - 警告 : Remote certificate is not valid for hostname,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46467116/

    相关文章:

    python - scrapy中通过回调函数传递元元素

    python - 使用 scrapy 从 XKCD 中抓取图像

    scrapy - 当javascript发出多个请求时,如何在Scrapy+Splash中设置cookie?

    kubernetes - 如何修复 Windows 10 上 minikube 版本 0.33.1 的 minikube 安装失败? - 重新启动集群时出错 - 加载 apiserver 证书失败

    python - 如何在 scrapy-splash 中设置启动超时?

    python - 在 PyPy 上运行 Scrapy