seo - robots.txt:禁止除了少数几个,为什么不呢?

标签 seo web-crawler robots.txt

<分区>

我一直在考虑是否禁止除 Ask、Google、Microsoft 和 Yahoo! 之外的所有抓取工具!来 self 的网站。

这背后的原因是我从未见过任何其他网络爬虫产生的流量。

我的问题是:

  1. 有什么理由不这样做吗?
  2. 有人做过吗?
  3. 您是否注意到任何负面影响?

更新:
到目前为止,我使用的是黑名单方法:如果我不喜欢爬虫,我将它们添加到禁止列表中。
然而,我不喜欢列入黑名单,因为这是一个永无止境的故事:那里总是有更多的爬虫。

我不太担心真正丑陋的行为不端的爬虫,它们会被自动检测和阻止。 (而且他们通常不会要求 robots.txt :)

然而,许多爬虫并没有任何行为不当,它们只是似乎没有为我/我的客户产生任何值(value)。
例如,有几个为网站提供支持的爬虫声称他们将成为下一个谷歌;只有更好。我从未见过来自它们的任何流量,而且我很怀疑它们会变得比上面提到的四个搜索引擎中的任何一个都好。

更新 2:
一段时间以来,我一直在分析几个网站的流量,对于合理的小型网站来说,似乎每天有 100 个独特的人类访问者(=我无法识别为非人类的访问者)。大约 52% 的生成流量是由自动化流程产生的。

60% 的自动访问者没有阅读 robots.txt,40%(占总流量的 21%) 确实请求 robots.txt。 (这包括 Ask、Google、Microsoft 和 Yahoo!)

所以我的想法是,如果我阻止所有似乎不会为我产生任何值(value)的行为良好的爬虫,我可以将带宽使用和服务器负载减少大约 12% - 17%。

最佳答案

互联网是一种发布机制。如果你想将你的网站列入白名单,你就反对这种做法,但这没关系。

您想将您的网站列入白名单吗?

请记住,忽略 robots.txt 的行为不当的机器人无论如何都不会受到影响(显然),行为良好的机器人可能有充分的理由存在,只是这对您来说是不透明的。

关于seo - robots.txt:禁止除了少数几个,为什么不呢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/487508/

相关文章:

url - .htaccess RewriteRule 将目录类型的 URL 结构转换为查询

ruby-on-rails - 如果您不关心 SEO/SEM,是否值得使用 "pretty URLs"

ASP.NET 在 Render() 之前执行函数

dom - 使用 phantomjs 或其他东西挖掘/爬网/网络控制台?

python - 使用 Scrapy 爬取带有 JavaScript 的站点

c# - RedirectPermanent 的正确用法是什么?

php - 从页面抓取时如何按顺序获取数据

seo - 如何在负载平衡环境中动态编辑 robots.txt?

robots.txt - Googlebots忽略了robots.txt?

谷歌图像搜索的搜索结果显示 slider 图像