python - Scrapy - 从 URL 获取文件大小和类型而不下载文件？

标签 python header request web-scraping scrapy

在 Scrapy 中，我想抓取一些具有大型 .zip 文件的页面，并检索有关这些文件的一些数据(大小、url 等)。我可以做到这一点的一种方法是产生对这些网址的请求，但我认为这会下载文件。如何仅从 zip 的 URL 中获取 header ？是否最好不要抓取我想要从中获取 header 的 URL，而是通过其他方式检索它？

最佳答案

产量requests并指定 HEAD作为一种方法:

yield Request(url, method="HEAD", callback=self.callback)

然后，在回调中读取 response.headers 中的 header :

def callback(self, response):
    print response.headers

关于python - Scrapy - 从 URL 获取文件大小和类型而不下载文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27595560/

上一篇：Python正则表达式参数问题

下一篇：python - 应用凸函数的计算成本何时？

相关文章：

javascript - 发送 AJAX 请求 - 无法开始工作

python - 如何每六分钟从网站下载一张图像？

python - 在python中使用xlrd获取excel值列表

c - 定义一个在 C 头文件中传递结构的函数

c++ - 使用命名空间标准

使用 POCO 的 C++ Http 请求

python - 更改 Pandas DataFrame 中的特定值(其中有混合类型)

python - 我应该返回一个空的字典而不是 None 吗？

class - 在类中存在的 header 中使用 'navigation' 和 'route' - React-navigation v5

javascript - 带有 Node.js 请求模块的多个请求池