algorithm - Google AdSense 机器人的算法和行为

标签 algorithm adsense bots googlebot

我对 Google AdSense 机器人的算法和网站行为很感兴趣。我没有使用 AdSense,也没有帐户。所以我需要你的帮助来理解:

1) Gbot 会不时从网站下载所有页面。我说得对吗?

2) Gbot 不理解动态内容(通过 ajax 加载)。所以我必须生成静态内容并在 html 页面中返回它,并且该页面必须为所有用户和 Gbot 显示相同的内容?

3) 由于 (1) 和 (2),我不能只使用根路径 http://example.com带有一些“主要”小部件。我必须生成独特的页面,例如 http://example.com/thread?id=101

4) Gbot 下载页面 (1) 以从中抓取(索引)关键字,然后存储(在其服务器上)这些信息,例如通过键/值(其中键是页面路径,值是标签云)。我说得对吗?

5) 当用户在浏览器中打开网站时。集成 html AdSense 的代码加载了一些 JavaScript。正如我通过“谷歌搜索”所理解的那样,这个 JavaScript 不会索引页面,而是调用(使用一些参数 key==page_path)到谷歌的服务器并获得适当的广告链接。然后在其框架中显示此广告链接。这是正确的行为吗?也许 JavaScript 对页面内容进行了一些本地索引?

6) Gbot 和 AdSense 的 JavaScript 如何使用 cookie?据我所知,AdSense 可以使用 cookie 来显示适当的广告链接。如果正确,请给我一些用例;)

我知道只有 Google 的工程师才知道“真实”算法。但是你们中的一些人有使用 AdSense 和 AdSense html/javascript 的经验。请纠正我对它的看法;)

非常感谢您的任何建议!!!

附言这个问题对我来说很重要。这不是什么好玩的问题!所以请不要关闭它;)

最佳答案

1) 如果 Googlebot 可以访问这些页面并且它通过链接、XMLSitemaps、Google +1 等了解这些页面,则可以。

2) Googlebot 现在将发出 AJAX/XHR 请求以了解 AJAX 内容 (http://googlewebmastercentral.blogspot.com/2011/11/get-post-and-safely-surfacing-more-of.html)。

是的,您应该向 Googlebot 显示与用户相同的内容,否则这将被视为隐藏真实内容,这违反了他们的准则。

3) 这个问题不清楚。但基本上最好更改 URL,因为 Google 将知道如何单独索引内容。如果您使用的是 AJAX,那么您可能需要像您建议的那样考虑永久链接,或者您可以使用 HTML5 popstate。

4) 是的,Google 会将页面上的单词编入索引。我不确定他们将其存储为键/值对。我什至不确定他们是否仍在使用 Big Table (http://labs.google.com/papers/bigtable.html) ...但很可能他们使用 Big Table 或类似的系统来存储倒排索引.

5) Adsense 代码嵌入了 Javascript ...对于 Google 以前从未见过的新网页,它会尝试根据在网络上找到的有关该网站的信息或可能通过 anchor 文本转换最相关的广告指向该页面的链接。但是,为了更准确地了解页面内容,Google 会发送一个特定于 adsense 的机器人来抓取您的页面……有时您会发现它来得非常快,甚至在您第一次加载页面时也是如此时间。它使用与传统 Googlebot 不同的用户代理...您可以在此处找到来自 Google 的所有用户代理 (http://www.google.com/support/webmasters/bin/answer.py?answer=1061943)

6) Google 的抓取工具不接受 cookie,也不会将 cookie 传回您的服务器。它与谷歌爬虫的大规模分布特性有关,这使得维护 cookie 或 session 变得极其困难。

关于algorithm - Google AdSense 机器人的算法和行为,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4256978/

相关文章:

algorithm - 为什么从链表中删除节点的复杂度为 O(1)?

html - 如何在 robots.txt 中只允许一个代理?

javascript - 为用户生成 javascript 嵌入代码

php - 验证 Googlebot

将 CSC 转换为 CSR 的算法复杂性

c++ - 有趣的问题(货币套利)

Python 仅 append 唯一名称而不是重复名称

elasticsearch - logstash:从结果中排除机器人

algorithm - 提高文本分类模型精度/召回率的典型方法是什么

javascript - Google Adsense 提示