我正在寻找一些关于 Google 如何抓取和索引内容的文档。我阅读了许多关于如何提高排名和确保内容被正确编入索引的“简单”论文和文章,但我正在寻找一些关于 Google 如何抓取和索引内容的更高级的技术文档。
我想了解更多的事情:
- Google 在抓取时寻找哪些元素:页面内容、URL 格式、关键字、描述等...
- 索引是如何更新的?
基本上,我试图理解为什么有些页面被编入索引,而其他页面却没有被编入索引,即使格式相似也是如此。为什么当我在整个域中进行搜索时,即使我可以在我的服务器日志中看到 Google 抓取了每个链接,我的网站页面也只有 10% 出现。
最佳答案
这两件事的答案都是严密保守的商业 secret ,表面上是为了防止玩弄系统。
另请记住,Google 制作了 over 400 algorithmic changes per year ,这使得局外人几乎不可能获得准确和最新的信息。如果不为 Google 工作,您可能找不到深入而准确的答案。
然而,网络垃圾邮件团队负责人 Matt Cutts 经常在 his blog 上提供有关 Google 如何处理内容的最准确见解。在 GoogleWebmasterHelp YouTube channel 上.阅读他的内容以更好地理解 Google 的方法是值得的。
关于algorithm - 谷歌抓取索引算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3489811/