python - Scrapy - 从 URL 获取文件大小和类型而不下载文件?

标签 python header request web-scraping scrapy

在 Scrapy 中,我想抓取一些具有大型 .zip 文件的页面,并检索有关这些文件的一些数据(大小、url 等)。我可以做到这一点的一种方法是产生对这些网址的请求,但我认为这会下载文件。如何仅从 zip 的 URL 中获取 header ?是否最好不要抓取我想要从中获取 header 的 URL,而是通过其他方式检索它?

最佳答案

产量requests并指定 HEAD作为一种方法:

yield Request(url, method="HEAD", callback=self.callback)

然后,在回调中读取 response.headers 中的 header :

def callback(self, response):
    print response.headers

关于python - Scrapy - 从 URL 获取文件大小和类型而不下载文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27595560/

相关文章:

javascript - 发送 AJAX 请求 - 无法开始工作

python - 如何每六分钟从网站下载一张图像?

python - 在python中使用xlrd获取excel值列表

c - 定义一个在 C 头文件中传递结构的函数

c++ - 使用命名空间标准

使用 POCO 的 C++ Http 请求

python - 更改 Pandas DataFrame 中的特定值(其中有混合类型)

python - 我应该返回一个空的字典而不是 None 吗?

class - 在类中存在的 header 中使用 'navigation' 和 'route' - React-navigation v5

javascript - 带有 Node.js 请求模块的多个请求池