我最近一直在构建一个处理重复事件的新网络应用程序。这些事件可以每天、每周或每月重复发生。
这一切都很好。但是当我开始创建事件浏览器页面(公共(public)互联网可见)时,我想到了一个想法。
如果爬虫访问此页面,并使用下一个和上一个按钮浏览日期,它会一直持续下去吗?所以我选择不使用通用 HTML 链接并使用 AJAX。这意味着机器人将无法跟踪链接。
但这种方法意味着我将失去对没有 Javascript 的用户的任何功能。还是没有 Javascript 的用户数量太少而不必担心?
有没有更好的方法来处理这个问题?
我也对像 Google 爬虫这样的机器人如何检测这些黑洞以及它如何处理这些黑洞非常感兴趣?
最佳答案
将 nofollow
标记添加到页面,或添加到您不想抓取的各个链接。这可以在 robots.txt
或页面源代码中。查看Robots Exclusion Standard
您可能仍然需要考虑如何抵御不遵守标准的行为不端的机器人。
关于dynamic - 为永恒而爬行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13327366/