algorithm - 谷歌抓取索引算法

标签 algorithm seo indexing web-crawler

我正在寻找一些关于 Google 如何抓取和索引内容的文档。我阅读了许多关于如何提高排名和确保内容被正确编入索引的“简单”论文和文章,但我正在寻找一些关于 Google 如何抓取和索引内容的更高级的技术文档。

我想了解更多的事情:

  • Google 在抓取时寻找哪些元素:页面内容、URL 格式、关键字、描述等...
  • 索引是如何更新的?

基本上,我试图理解为什么有些页面被编入索引,而其他页面却没有被编入索引,即使格式相似也是如此。为什么当我在整个域中进行搜索时,即使我可以在我的服务器日志中看到 Google 抓取了每个链接,我的网站页面也只有 10% 出现。

最佳答案

这两件事的答案都是严密保守的商业 secret ,表面上是为了防止玩弄系统。

另请记住,Google 制作了 over 400 algorithmic changes per year ,这使得局外人几乎不可能获得准确和最新的信息。如果不为 Google 工作,您可能找不到深入而准确的答案。

然而,网络垃圾邮件团队负责人 Matt Cutts 经常在 his blog 上提供有关 Google 如何处理内容的最准确见解。在 GoogleWebmasterHelp YouTube channel 上.阅读他的内容以更好地理解 Google 的方法是值得的。

关于algorithm - 谷歌抓取索引算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3489811/

相关文章:

java - 如何在java中查找二叉树中存在或不存在的节点?

python - 被动用户身份验证

algorithm - 需要帮助在 MATLAB 中对齐时间序列数据

Ajax 内容索引,谷歌

html - 使用 iframe 将 CSS 媒体查询应用于 block 元素

javascript - 搜索引擎索引如何为 JavaScript Web 应用程序(如 REACT)工作?

Swift Xcode 索引卡住或缓慢

c - 查找素数时的实现错误

python - 在 Python 中使用 "for"计算索引

postgresql - PostGIS 中的 K 最近邻查询