apache - 禁止抓取 CDN 站点

标签 apache seo cdn

所以我有一个网站http://www.example.com .

JS/CSS/图像由 CDN 提供 - http://xxxx.cloudfront.net或者 http://cdn.example.com ;它们都是一样的东西。现在 CDN 只提供任何类型的文件,包括我的 PHP 页面。谷歌也以某种方式抓取了该 CDN 站点;实际上是两个站点 - 来自 cdn.example.com 和 http://xxxx.cloudfront.net .考虑

  1. 我没有尝试设置子域或镜像站点。如果发生这种情况,那是我尝试设置 CDN 的副作用。
  2. CDN 是某种网络服务器,不一定是 Apache。我不知道那是什么类型的服务器。
  3. CDN 上没有请求处理。它只是从原始服务器获取东西。我认为,您不能将自定义文件放在 CDN 上;它只是从原始服务器获取东西。您需要放在 CDN 上的任何内容都来自源服务器。

  4. 如何防止抓取 PHP 页面?

  5. 我应该允许从 cdn.example.com 还是从 example.com 抓取图像? HTML 里面的图片链接都是 cdn.example.com。如果我只允许从 example.com 抓取图像,那么实际上没有什么可抓取的——没有指向此类图像的链接。如果我允许从 cdn.example.com 抓取图片,那么它不会泄露 SEO 的好处吗?

我根据 stackoverflow 的回答考虑了一些替代方案:

  1. 编写自定义 robot_cdn.txt 并根据 HTTP_HOST 提供该自定义 robots_cdn.txt。这是根据堆栈溢出的许多答案。
  2. 从子域提供新的 robots.txt。正如我上面所解释的,我不认为 CDN 可以被视为子域。
  3. 当 HTTP_HOST 为 cdn.example.com 时做 301 重定向到 www.example.com

建议?

与此相关的问题,例如How Disallow a mirror site (on sub-domain) using robots.txt?

最佳答案

您可以将 robots.txt 放在您的根目录中,这样它将与 cdn.-yourdomain-.com/robots.txt 一起提供。在此 robots.txt 中,您可以使用以下设置禁止所有爬虫

User-agent: *
Disallow: /

关于apache - 禁止抓取 CDN 站点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16953291/

相关文章:

.net - 如何在搜索引擎中索引您的 Silverlight 应用程序?

javascript - jquery ui - 如何使用谷歌 CDN

dns - CDN 域名列表

wordpress - 如何编写 .htaccess 重写规则

apache - 如何获取适用于 RHL 的 Apache mod_jk 连接器?

apache - http和https如何使用相同的端口

node.js - 出于 SEO 目的的 Nodejs URL 修改

seo - 搜索引擎是否会因使用不正确的顶级域而受到惩罚?

javascript - 尝试在我的 table 上使用 jquery.tablesorter 插件,但它不起作用

apache - 无法登录apache超集