python - Scrapy 跟随与正则表达式匹配的链接

标签 python regex expression scrapy

我刚开始使用 scrapy 和正则表达式,但经过研究,它们似乎是我提取我想要 scrapy 遵循的链接的最佳解决方案。我试图从我的起始 URL 中跟踪仅包含特定州缩写的链接,但我遇到的问题是包含缩写的 URL 不统一,它们具有不同的长度、不同数量的前导和尾随字符,而且对于我来说无法找出正确的正则表达式来提供 scrapy 来跟踪我想要的链接。对此的任何帮助将不胜感激。

抱歉没有给出任何示例,链接如下所示

/813rents-Inc_Tampa_FL__148254837
/A-Amp-M-Realty_Riverview_FL_92361_037984837
/A-Altieri_Tampa_FL_1257391_877954837

最佳答案

您可以从 CrawlSpider 进行子类化,并使用 SgmlLinkExtractor 中的 allow 选项,该选项接受正则表达式:

rules = (
  Rule(SgmlLinkExtractor(allow=(r'_FL_'), follow=True),
  Rule(SgmlLinkExtractor(allow=(r'...'), callback='parse_item').
)

def parse_item(self, response):
  ...

关于python - Scrapy 跟随与正则表达式匹配的链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19167107/

相关文章:

python 正则表达式与 re.split()

regex - 替换字符串中最后一次出现的字符

用于简单表达式的 Javascript 解析器

python - 对于我在范围内(开始,停止,步骤)Python 3

python - 展平嵌套的 try/except 子句

javascript - 正则表达式在正则表达式测试器中有效,但在模式中无效

c++ - C++ 中的返回表达式检查条件

java - 将数学表达式转换为 C 或 Java 代码

Python App Engine 全文搜索 > 空搜索返回搜索的所有文档。索引

python - 按列分组并获取 Pandas 组的平均值