robots.txt - 我可以将 `robots.txt` 文件用于我学校域中的子目录吗?

标签 robots.txt

我拥有一些在大学注册的网络空间。不幸的是,谷歌在该网站上找到了我的简历,但将其错误地索引为学术出版物,这导致谷歌学术搜索上的引用计数等事情搞砸了。我尝试将 robots.txt 上传到我的本地子目录中。问题是 Google 忽略此文件,而是使用为学校域列出的规则。

也就是说,url 看起来像

www.someschool.edu/~myusername/mycv.pdf

我已经上传了 robots.txt,可以在此处找到

www.someschool.edu/~myusername/robots.txt

Google 忽略了它,而是使用 robots.txt 作为学校的域

www.someschool.edu/robots.txt

如何让 Googlebot 忽略我的简历?

最佳答案

遗憾的是,robots.txt 被定义为您在 GET/robots.txt 时获得的任何内容,因此您不能将其用于您的子目录。

如果您可以使用自定义 .htaccess 文件,您可以使用 X-Robots-Tag HTTP header 。这是Google's documentation on X-Robots-Tag

关于robots.txt - 我可以将 `robots.txt` 文件用于我学校域中的子目录吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10131538/

相关文章:

支持通配符的 Java robots.txt 解析器

seo - rel=nofollow 一个子域

Python 请求与 robots.txt

robots.txt - Googlebots忽略了robots.txt?

python - 网络爬虫 - 忽略 Robots.txt 文件?

github-pages - 在 GitHub 页面中使用 robots.txt 有什么意义?

web-scraping - 这种反抓取技术对于 Robots.txt Crawl-Delay 是否可行?

seo - 如何确保垃圾帖子中的链接不会在搜索引擎结果中受益

Robots.txt 阻止访问所有 https ://pages

robots.txt - 禁止某些页面目录但不是该页面本身