python - 在哪里可以了解 scrapy SgmlLinkExtractor？

抱歉，我对 python 和 scrapy 非常陌生，试图通过反复试验来学习它们。

关于SgmlLinkExtractor，我看到每个人(至少在这个网站上)都非常擅长找到正确的代码来表示正确的路径，我在哪里/如何学习？例如 (allow=[r'page/\d+']) 或 allow=[r'series-\d{1}-episode-\d{2}.']等等等等

我正在尝试删除一个网站，其内容始终为story.html，链接格式如下:

*注1234567是一个变化的7位数字

我正在尝试使用 SgmlLinkExtractor 并定义我的路径，如下所示。我想包含 url 的描述部分和 7 位数字部分中的所有内容。我想确保网址以 story.html 结尾:

Rule(SgmlLinkExtractor(allow=(r'category1/././story\.html',)),callback='parse_item', follow=True),

但显然/././不允许我跳过两个子级别来到达story.html

编写此 SgmlLinkExtractor 的正确方法是什么？

最佳答案

试试这个

Rule(SgmlLinkExtractor(allow=(r'category1/description/\d+/story\.html',)), callback='parse_item', follow=True)

但我建议您仅使用 /description/\d+/story\.html 这部分，因为它的独特性足以抓取类别

在规则中我们传递正则表达式，所以你只需要学习 regex ，有一堆online regex tester工具可用

关于python - 在哪里可以了解 scrapy SgmlLinkExtractor？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15651417/