我当前使用的 robots.txt 文件不允许为我的 WP 管理员建立索引。目前我的机器人文件如下所示:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
我希望搜索引擎也停止索引我的图像。这些是我的私有(private)投资组合图像,我不希望它们出现在任何在线搜索中。
因此,我将添加对 Google Image bot 和 Bing bot 的限制。我的 Robots.txt 文件现在如下所示:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
User-agent: Googlebot-Image
Disallow: /
User-agent: msnbot-media
Disallow: /
这样写对吗? 还有其他建议吗?我还应该包括其他图像机器人吗?
最佳答案
您当前的布局是正确的,但是有一种全面的方法可以阻止机器人抓取您的图像。
鉴于您正在使用 WordPress,我将假设您正在使用正常的文件上传结构,这意味着您还可以将以下内容添加到 robots.txt:
User-agent: *
Disallow: /wp-content/uploads/
我建议您将其与当前拥有的内容结合使用,因为它只会阻止位于上传文件夹中的图像。这不适用于直接在主题文件或插件内容等中的图像。
您的完整列表如下所示:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/uploads/
Allow: /wp-admin/admin-ajax.php
User-agent: Googlebot-Image
Disallow: /
User-agent: msnbot-media
Disallow: /
这条路线一开始可能看起来很原始,但请记住,有 hundreds of crawlers在那里。为每个人制定一条规则可能会引起相当严重的头痛。
通过屏蔽 99.9% 图像所在的位置,您无需列出您能找到的每个抓取工具,并且还可以确保任何新抓取工具立即添加到列出它们是否遵循您的 robots.txt 文件。
此时,还值得一提的是,有相当多的网络爬虫完全忽略您的 robots 文件。
关于wordpress - robots.txt - noindex 图像,noindex 管理 - wordpress,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45071045/