search-engine - 是否可以通过robots.txt来控制抓取速度?

标签 search-engine robots.txt google-crawlers

我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面,我们可以在 Google Webmasters 中控制抓取速度(Google bot 抓取网站的程度)。我想知道是否可以通过robots.txt来限制爬虫事件

我的意思是接受机器人来抓取页面,但按时间、页面或大小限制它们的存在!

最佳答案

不是我发现的。 Robots.txt 是放置您希望机器人包含或排除的目录或文件的地方。如果有一种方法,它还不是标准的。请记住,创建机器人的人选择是否尊重 robots.txt,并非所有机器人(“坏机器人”)都尊重此文件。

目前,如果有降低爬网速度、网站停留时间等的设置,它将在一个机器人一个机器人的基础上,而不是标准化为 robots.txt 值。

更多信息:http://www.robotstxt.org/robotstxt.html

关于search-engine - 是否可以通过robots.txt来控制抓取速度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7787264/

相关文章:

java - Lucene 搜索失败,出现异常 : ava. lang.IllegalStateException:字段的意外文档值类型为 NONE

html - 搜索引擎如何从 html 页面中获取结构化数据?

java - 如何访问网站的 robots.txt

javascript - 使单页博客与搜索引擎一起工作

url - 我应该在 robots.txt 中包含移动网站 URL 吗?

seo - Robots.txt http ://example. com 与 http ://www. example.com

javascript - html5mode(true) 是否影响谷歌搜索爬虫

google-search-console - 旧版 Google Search Console 和新版 Google Search Console 中的错误数量不同

seo - 在这种情况下使用 <a href ="http://name.com"rel ="noindex, nofollow">name</a> 是个好主意吗?