我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面,我们可以在 Google Webmasters 中控制抓取速度(Google bot 抓取网站的程度)。我想知道是否可以通过robots.txt来限制爬虫事件
我的意思是接受机器人来抓取页面,但按时间、页面或大小限制它们的存在!
最佳答案
不是我发现的。 Robots.txt 是放置您希望机器人包含或排除的目录或文件的地方。如果有一种方法,它还不是标准的。请记住,创建机器人的人选择是否尊重 robots.txt,并非所有机器人(“坏机器人”)都尊重此文件。
目前,如果有降低爬网速度、网站停留时间等的设置,它将在一个机器人一个机器人的基础上,而不是标准化为 robots.txt 值。
更多信息:http://www.robotstxt.org/robotstxt.html
关于search-engine - 是否可以通过robots.txt来控制抓取速度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7787264/