python - Scrapy爬取整个网站后是否会出现 'know'?

标签 python web-scraping beautifulsoup scrapy

在抓取网站的单个页面时,我使用 Beautiful Soup 取得了巨大成功,但我有一个新项目,我必须在其中检查大量网站,看看它们是否包含指向我网站的提及或链接。因此,我需要检查每个站点的整个站点。

对于 BS,我只是还不知道如何告诉我的抓取工具它是通过网站完成的,所以我遇到了递归限制。这是 Scrapy 开箱即用的处理方式吗?

最佳答案

Scrapy 使用链接跟随器遍历站点,直到可用链接列表消失。一旦访问了某个页面,就会将其从列表中删除,并且 Scrapy 确保不会再次访问该链接。

假设所有网站页面都有其他页面的链接,Scrapy 将能够访问网站的每个页面。

我已经使用 Scrapy 浏览了数千个网站,主要是小型企业,并且没有遇到任何问题。它能够遍历整个站点。

关于python - Scrapy爬取整个网站后是否会出现 'know'?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46183843/

相关文章:

javascript - 是否可以用漂亮的汤从动态图中提取数据?

python - 如何在 python 中读取 gzip netcdf 文件?

python - Pandas 添加一列,其值可以是多个不同的值

python - 网页抓取 futbin.com

python - 美汤刮痧 : Why won't the get_text method return the text of this element?

javascript - 如何从 selenium 的 console.log 中提取数组?

Python 链接抓取器

python - TensorFlow 您必须使用 dtype float 为占位符张量 'Placeholder_2' 提供一个值

python - 如何从 DTD 创建 GUI?

python - 从 HTML 中提取字符串