python - Scrapy 不跟踪图像链接

标签 python scrapy

Scrapy中有没有办法不关注<a>标签指向图像?

例如:

<a href="http://jamsphere.com/wp-content/uploads/2015/11/Franki-Dennull-PROFILE.jpg">

我现在的代码:

for a in set(response.xpath('//a/@href')):
    yield scrapy.Request(url, callback=self.parse) 

显然我可以添加硬编码检查,但想知道是否有内置选项?

最佳答案

使用 LinkExtractor ,默认情况下会过滤掉常见的图像/视频/音频/文件扩展名。

here查看忽略的扩展。

关于python - Scrapy 不跟踪图像链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53611683/

相关文章:

python - 嗨,我正在使用 Python 为 GOES16 Air Mass 产品制作 RGB 图像,我像这样提取感兴趣范围的信息

python - Scrapy:抓取链接列表

python - 如何从命令行使用 Scrapy 传递表单数据?

python - 将参数传递给回调函数

python - 如何将spark数据输出到具有单独列的csv文件?

python - 使用 --onefile 选项在 PyInstaller 上捆绑 CEFpython

python - 使用子进程模块从 python 启动 jython 程序?

python - VSCode 终端中的 conda activate 未正确更新 PATH

python - 为什么当我运行 `sel` 时,选择器 `scrapy shell` 不存在?

python - Scrapy安装报错pip和easy_install