我正在浏览我能找到的所有 scrapy 示例和教程,但我找不到一个示例,我可以在其中获取从服务器发送的图像、css 和 js 文件的所有 url。
有没有办法用 scrapy 做到这一点?如果不是用 scrapy,那么有没有办法用其他东西来做到这一点?
我基本上想浏览我的网站并获取所有 url/资源并将它们输出到日志文件。
最佳答案
您可以使用 link extractor (更具体地说,我发现 LxmlParserLinkExtractor 更适合这种情况),像这样自定义元素和属性:
from scrapy.contrib.linkextractors.lxmlhtml import LxmlParserLinkExtractor
tags = ['img', 'embed', 'link', 'script']
attrs = ['src', 'href']
extractor = LxmlParserLinkExtractor(lambda x: x in tags, lambda x: x in attrs)
resource_urls = [l.url for l in extractor.extract_links(response)]
关于python - 如何检索所有图像、js、css url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29836634/