我的 requests.seen 文件中的一些示例值是
f4e2f84g6g987t69896gg83552ccb8c36bdff296
ccb8c36bdff29651d3080c9644b117364de75cd7
9ec11d5f1a4cda70af990ad40843615a5f1a4cda
我知道它们代表了我所抓取的 URL。如何将这些值转换为 URLS?或者更好的是,我如何将 URL 转换为等效的表示形式并检查它是否存在于 requests.seen 文件中?
最佳答案
见请求指纹功能 https://github.com/scrapy/scrapy/blob/master/scrapy/utils/request.py
The request fingerprint is a hash that uniquely identifies the resource the request points to
使用示例 redis dupefilter :
def request_seen(self, request):
fp = request_fingerprint(request)
added = self.server.sadd(self.key, fp)
return not added
关于python - Scrapy 中 requests.seen 文件中存储的值是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20414711/