我构建动态网站,其中结构分层保存在数据库中(自己的 CMS)。我正在使用邻接模型来管理这个数据库表(通过 PDO 的 PHP 和 Mysql)
我检测到 Google 正在为它不应该索引的页面编制索引。
用于导航的树结构示例:
home
about us
products
productgroup 1
productgroup 2
contact
support
sales
想象一下这个结构在一个带有页面链接的下拉菜单中。当我选择 products->productgroup 1 时,我得到一个像 www.domain.com/products/productgroup-1 这样的 url,它从数据库中提取数据(基于最后一个 uri 元素:productgroup-1,标题的 slug 版本)并将其显示在我的模板中。我不查询所有元素,只查询最后一个(我应该,我知道)。
到目前为止一切顺利。 Google 正在按预期将此页面编入索引:
http://www.domain.com/products/productgroup-1
但是...当我使用 Google 网站管理员工具时,我看到很多网页被 404 索引,例如:
http://www.domain.com/products
http://www.domain.com/contact
等等。
这些页面是空的,在导航结构中没有链接。
我设计了我的结构,以便这些页面返回 404 错误。 Webmastertools 证实了这一点,但继续为这些页面编制索引。我知道我可以使用 robots.txt 来禁止 Google 的搜索机器人让它访问索引 url。还有另一种方法吗?我应该生成 403 而不是 404 吗?
我在黑暗中。
最佳答案
你应该做几件事:
使用 301 永久重定向将此空白页面定向到相关页面:
即使谷歌不抓取http://www.domain.com/products , 有些人仍然可以通过从浏览器中删除 URL 的最后一段来访问此链接。您可能不想向他们显示 404,而是一些相关信息。
例如,您可以重定向 http://www.domain.com/products和 http://www.domain.com/products/至 http://www.domain.com/products/productgroup-1
从 Moz 了解更多关于 301 重定向的信息
可以使用 mod-rewrite 进行 301 重定向,而不是在代码级别进行。
将站点地图提交到 google 网站管理员工具。
这是您网站中 URL 的最终列表。
拥有站点地图会注意删除已编入 Google 索引的 404 URL 列表,但会通知 Google 您网站中的所有“官方”URL 以及预期的抓取频率。
阅读 Google webmaster tools 的更多内容这里。
检查您的 HTML 代码中对“/products”或“/contact”的引用。否则,Googlebot 将不会抓取这些网址。
关于php - 如何处理不存在的 Google 索引 'pages',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27681934/