python - 如何检索所有图像、js、css url

标签 python http web web-crawler scrapy

我正在浏览我能找到的所有 scrapy 示例和教程,但我找不到一个示例,我可以在其中获取从服务器发送的图像、css 和 js 文件的所有 url。

有没有办法用 scrapy 做到这一点?如果不是用 scrapy,那么有没有办法用其他东西来做到这一点?

我基本上想浏览我的网站并获取所有 url/资源并将它们输出到日志文件。

最佳答案

您可以使用 link extractor (更具体地说,我发现 LxmlParserLinkExtractor 更适合这种情况),像这样自定义元素和属性:

from scrapy.contrib.linkextractors.lxmlhtml import LxmlParserLinkExtractor

tags = ['img', 'embed', 'link', 'script']
attrs = ['src', 'href']
extractor = LxmlParserLinkExtractor(lambda x: x in tags, lambda x: x in attrs)
resource_urls = [l.url for l in extractor.extract_links(response)]

关于python - 如何检索所有图像、js、css url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29836634/

相关文章:

Python/ tensorflow : Saver for network

德尔福。 socket 。仅在一个节点/MAC 地址上的 TIdHttp 套接字连接上访问被拒绝。必发API

php - 如何让 xampp 运行旧版本的 mySQL 和/或 phpMyAdmin

web - 在另一个网络服务器上测试网站 - 没有谷歌搜索引擎优化

python - 为什么我在 Scrapy 中的输入/输出处理器不工作?

python - Python如何增加列表元素?

python - 使用python下载文件

php - 在 Laravel 5 中将所有 Http 请求重定向到 Https

http - 如何在 Zend Framework 2 http 请求中进行基本身份验证?

javascript - 如何在 ReactJS 中处理复杂对象?