我知道这个问题被问了很多次,但我想更具体一些。
我有一个开发域并将该站点移到子文件夹中。让我们从:
http://www.example.com/
到:
http://www.example.com/backup
所以我希望子文件夹根本不会被搜索引擎索引。我已将 robots.txt 与以下内容放在子文件夹中(我可以将其放在子文件夹中还是必须始终位于根目录中,因为我希望搜索引擎可以看到根目录中的内容):
User-agent: *
Disallow: /
也许我需要替换它并将以下内容放入根目录:
User-agent: *
Disallow: /backup
另一件事是,我在某处读到某些机器人不尊重 robots.txt 文件,所以只需将 .htaccess 文件放在/backup 文件夹中就可以完成这项工作吗?
Order deny,allow
Deny from all
有任何想法吗?
最佳答案
这将阻止该目录被索引:
User-agent: *
Disallow: /backup/
此外,您的 robots.txt 文件必须放置在您域的根目录中,因此在这种情况下,该文件将放置在您可以通过访问 http://example.com/robots.txt 在浏览器中访问它的位置。
顺便说一句,您可能需要考虑为您的开发站点设置一个子域,例如 http://dev.example.com .这样做可以让您将开发内容与生产环境完全分开,并且还可以确保您的环境更加匹配。
例如,JavaScript 文件、CSS、图像或其他资源的任何绝对路径在从开发到生产的过程中都可能不同,这可能会导致一些问题。
有关如何配置此文件的更多信息,请参阅 robotstxt.org地点。祝你好运!
作为最后和最后的说明 Google Webmaster Tools有一个部分,您可以在其中 see what is blocked by the robots.txt file :
To see which URLs Google has been blocked from crawling, visit the Blocked URLs page of the Health section of Webmaster Tools.
我强烈建议您使用此工具,因为配置不正确的 robots.txt 文件可能会对您网站的性能产生重大影响。
关于.htaccess - 如何限制网站被索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10765516/