Scrapy中有没有办法不关注<a>
标签指向图像?
例如:
<a href="http://jamsphere.com/wp-content/uploads/2015/11/Franki-Dennull-PROFILE.jpg">
我现在的代码:
for a in set(response.xpath('//a/@href')):
yield scrapy.Request(url, callback=self.parse)
显然我可以添加硬编码检查,但想知道是否有内置选项?
最佳答案
使用 LinkExtractor ,默认情况下会过滤掉常见的图像/视频/音频/文件扩展名。
看here查看忽略的扩展。
关于python - Scrapy 不跟踪图像链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53611683/