apache - 禁止抓取 CDN 站点

所以我有一个网站http://www.example.com .

JS/CSS/图像由 CDN 提供 - http://xxxx.cloudfront.net或者 http://cdn.example.com ;它们都是一样的东西。现在 CDN 只提供任何类型的文件，包括我的 PHP 页面。谷歌也以某种方式抓取了该 CDN 站点；实际上是两个站点 - 来自 cdn.example.com 和 http://xxxx.cloudfront.net .考虑

我没有尝试设置子域或镜像站点。如果发生这种情况，那是我尝试设置 CDN 的副作用。
CDN 是某种网络服务器，不一定是 Apache。我不知道那是什么类型的服务器。
CDN 上没有请求处理。它只是从原始服务器获取东西。我认为，您不能将自定义文件放在 CDN 上；它只是从原始服务器获取东西。您需要放在 CDN 上的任何内容都来自源服务器。
如何防止抓取 PHP 页面？
我应该允许从 cdn.example.com 还是从 example.com 抓取图像？ HTML 里面的图片链接都是 cdn.example.com。如果我只允许从 example.com 抓取图像，那么实际上没有什么可抓取的——没有指向此类图像的链接。如果我允许从 cdn.example.com 抓取图片，那么它不会泄露 SEO 的好处吗？

我根据 stackoverflow 的回答考虑了一些替代方案:

编写自定义 robot_cdn.txt 并根据 HTTP_HOST 提供该自定义 robots_cdn.txt。这是根据堆栈溢出的许多答案。
从子域提供新的 robots.txt。正如我上面所解释的，我不认为 CDN 可以被视为子域。
当 HTTP_HOST 为 cdn.example.com 时做 301 重定向到 www.example.com

建议？

与此相关的问题，例如How Disallow a mirror site (on sub-domain) using robots.txt?

最佳答案

您可以将 robots.txt 放在您的根目录中，这样它将与 cdn.-yourdomain-.com/robots.txt 一起提供。在此 robots.txt 中，您可以使用以下设置禁止所有爬虫

User-agent: *
Disallow: /

关于apache - 禁止抓取 CDN 站点，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16953291/

apache - 禁止抓取 CDN 站点

上一篇：joomla - HTTP/1.1 500 内部服务器错误

下一篇：seo - 微数据对Web服务有用吗？