ruby-on-rails - 为什么 Google Bot Crawling 不存在 CSS 文件?

标签 ruby-on-rails web-crawler asset-pipeline googlebot

Google Bot Crawler 一直在尝试抓取我的网站上不存在的 CSS 文件。

它要求:

http://www.mywebsite.com/assets/index-d45678283d4ab9905c3538184826e599.css

这个确切的文件名在生产中不存在(生产中的文件名略有不同)。

但是,它请求的 CSS 文件确实存在于开发中:
http://localhost:3000/assets/index-d45678283d4ab9905c3538184826e599.css

我不确定它为什么要这个文件。

在部署到生产环境之前,我使用 Capistrano(加载“部署/ Assets ”)来预编译我的 Assets 。

现在,我只是在 robots.txt 中阻止了这个文件,但它请求的 css 文件在每次部署后都会发生变化。

为什么 GoogleBot 要抓取这个在生产站点中不存在的文件?我该如何阻止?

最佳答案

GoogleBot 可能会看到以下两种情况之一:

  • 它会在您网站上的某个地方看到该文件被错误引用的地方 - 即旧代码构建。我会在您的实时站点(捆绑)中搜索该文件。
  • 它会记住先前构建中的该文件,并尝试检查它是否有更新。

  • 令我困惑的是,在您的服务器发出 404 响应后,它不会忽略它,但是,Google 软件的内部工作原理是一个黑匣子;没有真正的方法可以说明为什么它会这样做。

    也就是说,他们提供 Webmaster Tools Panel这允许您对其索引等进行一些自定义。

    关于ruby-on-rails - 为什么 Google Bot Crawling 不存在 CSS 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17266888/

    相关文章:

    ruby-on-rails - rails 3 - 一个应用程序,多个域,如何为其中一个域实现不同的 'root' 路由?

    ruby-on-rails - Capistrano 指向不再存在的旧版本

    jquery - Rails 将查询 View 拆分为两个不同的 div

    ruby-on-rails - 在 Rails Controller 操作中呈现 html 时模板丢失错误

    html - 设置布局条件 - CSS

    python - 为什么我在 scrapy 上的所有项目都是一样的?

    javascript - PhantomJS 浏览器未加载某些 url 的 javascript

    python - Appengine Apps 与 Google bot 网络爬虫

    ruby-on-rails - Rails 应用程序未在弹性 beantalk aws 上加载 Assets

    javascript - Rails 3.1 是否包括整个 jQuery 库?