python - Scrapy爬取整个网站后是否会出现 'know'？

在抓取网站的单个页面时，我使用 Beautiful Soup 取得了巨大成功，但我有一个新项目，我必须在其中检查大量网站，看看它们是否包含指向我网站的提及或链接。因此，我需要检查每个站点的整个站点。

对于 BS，我只是还不知道如何告诉我的抓取工具它是通过网站完成的，所以我遇到了递归限制。这是 Scrapy 开箱即用的处理方式吗？

最佳答案

Scrapy 使用链接跟随器遍历站点，直到可用链接列表消失。一旦访问了某个页面，就会将其从列表中删除，并且 Scrapy 确保不会再次访问该链接。

假设所有网站页面都有其他页面的链接，Scrapy 将能够访问网站的每个页面。

我已经使用 Scrapy 浏览了数千个网站，主要是小型企业，并且没有遇到任何问题。它能够遍历整个站点。

关于python - Scrapy爬取整个网站后是否会出现 'know'？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46183843/

相关文章：

javascript - 是否可以用漂亮的汤从动态图中提取数据？