robots.txt - 使用 robots.txt 从搜索引擎隐藏文件夹和子文件夹的正确语法

我的网站上有一个文件夹/pics。它有许多子文件夹。每个子文件夹都包含文件。我希望对搜索引擎隐藏/pics 及其子文件夹以及子文件夹中的文件。

我使用以下哪些选项，或者它们是同义词:

Disallow: /pics
Disallow: /pics/
Disallow: /pics/*

如果它们不是同义词，那么它们之间的效果有什么区别？

最佳答案

它们不是同义词。

Disallow 值始终表示 URL 路径的开头。因此，Disallow:/pics/ 不会阻止 https://example.com/pics，并且 Disallow:/pics 还会阻止 https://example.com/picsandmore。

Disallow:/pics/* 是一种特殊情况:在原始 robots.txt 规范中，* 没有特殊含义，它是一个与其他任何字符一样的字符 (因此它会阻止像 https://example.com/pics/*foo 这样的 URL。但许多搜索引擎扩展了 robots.txt 规范，并将 * 解释为任何字符串(包括空字符串)的占位符。不过，这相当于 Disallow:/pics/，因此在这种情况下最好不要使用 * 变体。

如果您还想阻止 https://example.com/pics(不带尾部斜杠)，则必须使用 Disallow:/pics。但请记住，它还会阻止任何其他路径以 /pics 开头的 URL。

如果没有 https://example.com/pics，因此始终有一个尾部斜杠，您可以使用限制性更强的 Disallow:/pics/。

如果您想隐藏 pics 文件夹这一事实，您可以使用 Disallow:/p 或 Disallow:/pi 等。但是，请再次记住，它可能会阻止比您想要的更多的内容。

关于robots.txt - 使用 robots.txt 从搜索引擎隐藏文件夹和子文件夹的正确语法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55118042/

上一篇：php - "App\Entity\Cat"实体的配置不可用(该实体用作 "cat"自动完成字段的目标)

下一篇：selenium - 使用 xpath 识别元素的困难

相关文章：

web-crawler - Robots.txt:只允许主要 SE

javascript - AMP HTML 文件无法呈现，因为 https ://cdn. ampproject.org/robots.txt 设置为禁止

seo - 如何阻止谷歌抓取我的 Bitly Branded 短域名？

Robots.txt 中的 Facebook 和抓取延迟？

robots.txt 禁止除一个页面之外的所有页面？它们是否覆盖和级联？

user-agent - robots.txt——用户代理 block 之间需要空行，还是可选的？

artificial-intelligence - 哪种是编写网络机器人的最佳编程语言？

robots.txt 不允许根域上的谷歌机器人但允许谷歌图像机器人？

python - 防止机器人访问托管在 GCloud 上的网站