我刚开始使用 scrapy 和正则表达式,但经过研究,它们似乎是我提取我想要 scrapy 遵循的链接的最佳解决方案。我试图从我的起始 URL 中跟踪仅包含特定州缩写的链接,但我遇到的问题是包含缩写的 URL 不统一,它们具有不同的长度、不同数量的前导和尾随字符,而且对于我来说无法找出正确的正则表达式来提供 scrapy 来跟踪我想要的链接。对此的任何帮助将不胜感激。
抱歉没有给出任何示例,链接如下所示
/813rents-Inc_Tampa_FL__148254837
/A-Amp-M-Realty_Riverview_FL_92361_037984837
/A-Altieri_Tampa_FL_1257391_877954837
最佳答案
您可以从 CrawlSpider
进行子类化,并使用 SgmlLinkExtractor
中的 allow
选项,该选项接受正则表达式:
rules = (
Rule(SgmlLinkExtractor(allow=(r'_FL_'), follow=True),
Rule(SgmlLinkExtractor(allow=(r'...'), callback='parse_item').
)
def parse_item(self, response):
...
关于python - Scrapy 跟随与正则表达式匹配的链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19167107/