search-engine - 是否可以通过robots.txt来控制抓取速度？

标签 search-engine robots.txt google-crawlers

我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面，我们可以在 Google Webmasters 中控制抓取速度(Google bot 抓取网站的程度)。我想知道是否可以通过robots.txt来限制爬虫事件

我的意思是接受机器人来抓取页面，但按时间、页面或大小限制它们的存在!

最佳答案

不是我发现的。 Robots.txt 是放置您希望机器人包含或排除的目录或文件的地方。如果有一种方法，它还不是标准的。请记住，创建机器人的人选择是否尊重 robots.txt，并非所有机器人(“坏机器人”)都尊重此文件。

目前，如果有降低爬网速度、网站停留时间等的设置，它将在一个机器人一个机器人的基础上，而不是标准化为 robots.txt 值。

更多信息:http://www.robotstxt.org/robotstxt.html

关于search-engine - 是否可以通过robots.txt来控制抓取速度？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7787264/

上一篇：debugging - 是否可以从同一网络上的另一台计算机访问 Azure 模拟器？

下一篇：coldfusion - CFInclude vs Custom Tag vs CFC 用于演示和安全性

html - 搜索引擎如何从 html 页面中获取结构化数据？

java - 如何访问网站的 robots.txt

javascript - 使单页博客与搜索引擎一起工作

url - 我应该在 robots.txt 中包含移动网站 URL 吗？

seo - Robots.txt http ://example. com 与 http ://www. example.com

javascript - html5mode(true) 是否影响谷歌搜索爬虫

google-search-console - 旧版 Google Search Console 和新版 Google Search Console 中的错误数量不同

seo - 在这种情况下使用 <a href ="http://name.com"rel ="noindex, nofollow">name</a> 是个好主意吗？