python - LinkExtractor 和 SgmlLinkExtractor 的区别

标签 python web-scraping scrapy

我是 scrapy 框架的新手,我看过一些使用 LinkExtractors 的教程和一些使用 SgmlLinkExtractor 的教程。我曾尝试寻找两者的差异/利弊,但结果并不令人满意。

谁能告诉我两者的区别?我们什么时候应该使用上述提取器?

谢谢!

最佳答案

为什么您找不到对 SgmlLinkExtractor 的引用的问题是它现在已弃用(相关 changeset )。您可以找到 SgmlLinkExtractor 定义 here - 在 Scrapy 0.24 文档中。

而且,你不应该再使用 SgmlLinkExtractor - Scrapy 现在只留下一个链接提取器 - LxmlLinkExtractor - LinkExtractor 别名指向的那个。

关于python - LinkExtractor 和 SgmlLinkExtractor 的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37283564/

相关文章:

python - 在Scrapy中养CloseSpider有什么影响?

python - 如何让 scrapy 使用 url 迭代存档?

python - 财务数字的正则表达式

python - 此字段为必填错误,但字段格式为

python - 动画散点图和等高线图

python - 如何使用 selenium 记录 mathjax 加载时间

html - Selenium driver.page_source() 仅提取部分 HTML DOM

c# - 为什么 element.click() 在 Cefsharp 中不起作用?

python - 获取与 Beautiful Soup 的字符串列表中的字符串匹配的 HTML href 链接

javascript - scrapy javascript重定向页面