python - 如何检索所有图像、js、css url

我正在浏览我能找到的所有 scrapy 示例和教程，但我找不到一个示例，我可以在其中获取从服务器发送的图像、css 和 js 文件的所有 url。

有没有办法用 scrapy 做到这一点？如果不是用 scrapy，那么有没有办法用其他东西来做到这一点？

我基本上想浏览我的网站并获取所有 url/资源并将它们输出到日志文件。

最佳答案

您可以使用 link extractor (更具体地说，我发现 LxmlParserLinkExtractor 更适合这种情况)，像这样自定义元素和属性:

from scrapy.contrib.linkextractors.lxmlhtml import LxmlParserLinkExtractor

tags = ['img', 'embed', 'link', 'script']
attrs = ['src', 'href']
extractor = LxmlParserLinkExtractor(lambda x: x in tags, lambda x: x in attrs)
resource_urls = [l.url for l in extractor.extract_links(response)]

关于python - 如何检索所有图像、js、css url，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29836634/

上一篇：Python请求模块不使用post方法

下一篇：javascript - Node JS 通过 URL 发送数据

相关文章：

Python/ tensorflow : Saver for network

德尔福。 socket 。仅在一个节点/MAC 地址上的 TIdHttp 套接字连接上访问被拒绝。必发API

php - 如何让 xampp 运行旧版本的 mySQL 和/或 phpMyAdmin

web - 在另一个网络服务器上测试网站 - 没有谷歌搜索引擎优化

python - 为什么我在 Scrapy 中的输入/输出处理器不工作？

python - Python如何增加列表元素？

python - 使用python下载文件

php - 在 Laravel 5 中将所有 Http 请求重定向到 Https

http - 如何在 Zend Framework 2 http 请求中进行基本身份验证？

javascript - 如何在 ReactJS 中处理复杂对象？