python - Scrapy 不跟踪图像链接

标签 python scrapy

Scrapy中有没有办法不关注<a>标签指向图像？

例如:

<a href="http://jamsphere.com/wp-content/uploads/2015/11/Franki-Dennull-PROFILE.jpg">

我现在的代码:

for a in set(response.xpath('//a/@href')):
    yield scrapy.Request(url, callback=self.parse)

显然我可以添加硬编码检查，但想知道是否有内置选项？

最佳答案

使用 LinkExtractor ，默认情况下会过滤掉常见的图像/视频/音频/文件扩展名。

看here查看忽略的扩展。

关于python - Scrapy 不跟踪图像链接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53611683/

上一篇：python - 在 python/pandas 中将年/月转换为年/月/日

下一篇：python - Pandas 数据框填充索引之间的值

相关文章：

python - 嗨，我正在使用 Python 为 GOES16 Air Mass 产品制作 RGB 图像，我像这样提取感兴趣范围的信息

python - Scrapy:抓取链接列表

python - 如何从命令行使用 Scrapy 传递表单数据？

python - 将参数传递给回调函数

python - 如何将spark数据输出到具有单独列的csv文件？

python - 使用 --onefile 选项在 PyInstaller 上捆绑 CEFpython

python - 使用子进程模块从 python 启动 jython 程序？

python - VSCode 终端中的 conda activate 未正确更新 PATH

python - 为什么当我运行 `sel` 时，选择器 `scrapy shell` 不存在？

python - Scrapy安装报错pip和easy_install

©2024 IT工具网联系我们