robots.txt - 使用 robots.txt 从搜索引擎隐藏文件夹和子文件夹的正确语法

标签 robots.txt

我的网站上有一个文件夹/pics。 它有许多子文件夹。 每个子文件夹都包含文件。 我希望对搜索引擎隐藏/pics 及其子文件夹以及子文件夹中的文件。

我使用以下哪些选项,或者它们是同义词:

Disallow: /pics
Disallow: /pics/
Disallow: /pics/*

如果它们不是同义词,那么它们之间的效果有什么区别?

最佳答案

它们不是同义词。

Disallow 值始终表示 URL 路径的开头。因此,Disallow:/pics/ 不会阻止 https://example.com/pics,并且 Disallow:/pics 还会阻止 https://example.com/picsandmore

Disallow:/pics/* 是一种特殊情况:在原始 robots.txt 规范中,* 没有特殊含义,它是一个与其他任何字符一样的字符 (因此它会阻止像 https://example.com/pics/*foo 这样的 URL。但许多搜索引擎扩展了 robots.txt 规范,并将 * 解释为任何字符串(包括空字符串)的占位符。不过,这相当于 Disallow:/pics/,因此在这种情况下最好不要使用 * 变体。

如果您还想阻止 https://example.com/pics(不带尾部斜杠),则必须使用 Disallow:/pics。但请记住,它还会阻止任何其他路径以 /pics 开头的 URL。

如果没有 https://example.com/pics,因此始终有一个尾部斜杠,您可以使用限制性更强的 Disallow:/pics/

如果您想隐藏 pics 文件夹这一事实,您可以使用 Disallow:/pDisallow:/pi 等。但是,请再次记住,它可能会阻止比您想要的更多的内容。

关于robots.txt - 使用 robots.txt 从搜索引擎隐藏文件夹和子文件夹的正确语法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55118042/

相关文章:

web-crawler - Robots.txt:只允许主要 SE

javascript - AMP HTML 文件无法呈现,因为 https ://cdn. ampproject.org/robots.txt 设置为禁止

seo - 如何阻止谷歌抓取我的 Bitly Branded 短域名?

Robots.txt 中的 Facebook 和抓取延迟?

robots.txt 禁止除一个页面之外的所有页面?它们是否覆盖和级联?

user-agent - robots.txt——用户代理 block 之间需要空行,还是可选的?

artificial-intelligence - 哪种是编写网络机器人的最佳编程语言?

robots.txt 不允许根域上的谷歌机器人但允许谷歌图像机器人?

python - 防止机器人访问托管在 GCloud 上的网站