indexing - 如何在索引到谷歌时阻止 URL?

标签 indexing seo robots.txt

我有一个开发服务器,其中放置了 100 个网站(文件夹),但我将每个文件夹指向另一个域,但我仍然可以使用服务器 ip 或域访问该文件夹,对吗?我怎样才能停止索引由服务器的 ip 或域打开的 url?

例如:

服务器是:myserver.com 网址(文件夹):mywebsite

我可以像 myserver.com/mywebsite 一样访问它

我有另一个名为 newwebsite.com 的域并指向 myserver.com 中存在的 mywebsite 文件夹,然后我可以使用 newwebsite.com 访问同一文件夹,我需要停止索引 myserver.com/mywebsite.. 任何人都可以帮助我吗?提前致谢。

最佳答案

在您添加到 google 存储库的每个网站中,您都可以添加一个名为 Robots.txt 的文件。此文件包含您关于以下方面的所有规则:

  1. 哪些页面和 URL 将被编入索引并被关注。
  2. 哪些 URL 作为隐藏点拒绝爬虫访问。
  3. 以及您可以在此 documentation 中阅读的所有其他规则.

例如,您可以像这样在每个域(或子域)中阻止您喜欢的 URL:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html

不要记住robots.txt文件必须放在每个网站的根目录下才能被爬虫检测到。 问候

关于indexing - 如何在索引到谷歌时阻止 URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39013752/

相关文章:

python - 在Python中的2个多维数组中查找数组的索引

Python 3 列表切片引发索引错误

html - 我可以将多个(超过 2 个)链接标签与 "next"和 "prev"一起使用吗?

.htaccess - 通过 301 重定向 .htaccess 的 404 错误以进行 SEO 等

node.js - 如何在 Nextjs 中添加 sitemap.xml

支持通配符的 Java robots.txt 解析器

asp.net-mvc-4 - 同一站点不同域的robots.txt文件

indexing - SOLRJ-6.0.0 : Insertion of a bean object which associate list of bean object is giving null pointer exception

url - Opencart 面包屑链接不一致

mongodb - 如何确保基于特定字段的数组中的唯一项 - mongoDB?