我在不同的子域上托管了 dev.example.com 和 www.example.com。我希望爬虫删除 dev
的所有记录子域,但将它们保留在 www
.我使用 git 来存储两者的代码,所以理想情况下我希望两个站点都使用相同的 robots.txt 文件。
是否可以使用一个 robots.txt 文件并让它从 dev
中排除爬虫程序?子域?
最佳答案
您可以使用 Apache 重写逻辑来提供不同的 robots.txt
在开发领域:
<IfModule mod_rewrite.c>
RewriteEngine on
RewriteCond %{HTTP_HOST} ^dev\.qrcodecity\.com$
RewriteRule ^robots\.txt$ robots-dev.txt
</IfModule>
然后创建一个单独的
robots-dev.txt
:User-agent: *
Disallow: /
关于robots.txt - 使用 robots.txt 在子域上禁止或无索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4904642/