python - Scrapy 只抓取 http header 数据

标签 python http-headers scrapy

(如何)我可以实现 scrapy 只下载网站的标题数据(用于检查目的等)

我试过禁用一些下载中间件,但它似乎不起作用。

最佳答案

如@alexce 所说,您可以发出 HEAD Request s 而不是默认的 GET:

Request(url, method="HEAD")

更新:如果您想为您的 start_urls 使用 HEAD 请求,您需要覆盖 make_requests_from_url 方法:

def make_requests_from_url(self, url):
    return Request(url, method='HEAD', dont_filter=True)

更新:make_requests_from_url 在 Scrapy 2.6 中被移除。

关于python - Scrapy 只抓取 http header 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28982890/

相关文章:

Python:pygame.QUIT()

python - 从另外两个列表派生新的列表列表,如果 L1 中的元素不在 L2 中,则附加这些元素

http-headers - 如何发送带有打字错误的 HTTP 状态代码?

java - 向 Spring ResponseEntity 添加一个新的 Header

python - 执行某些步骤后无法从网页中获取动态填充的数字

python - 内部加入巨大的数据框(约 200 万列)

JavaScript - 如何为浏览器 GET 设置请求 header

Python Scrapy,从子页面返回继续抓取

python - scrapy自定义输出处理器

scrapy - 内容安全策略存在抓取和飞溅的问题