dynamic - 为永恒而爬行

标签 dynamic seo bots web-crawler

我最近一直在构建一个处理重复事件的新网络应用程序。这些事件可以每天、每周或每月重复发生。

这一切都很好。但是当我开始创建事件浏览器页面(公共(public)互联网可见)时,我想到了一个想法。

如果爬虫访问此页面,并使用下一个和上一个按钮浏览日期,它会一直持续下去吗?所以我选择不使用通用 HTML 链接并使用 AJAX。这意味着机器人将无法跟踪链接。

但这种方法意味着我将失去对没有 Javascript 的用户的任何功能。还是没有 Javascript 的用户数量太少而不必担心?

有没有更好的方法来处理这个问题?

我也对像 Google 爬虫这样的机器人如何检测这些黑洞以及它如何处理这些黑洞非常感兴趣?

最佳答案

nofollow 标记添加到页面,或添加到您不想抓取的各个链接。这可以在 robots.txt 或页面源代码中。查看Robots Exclusion Standard

您可能仍然需要考虑如何抵御不遵守标准的行为不端的机器人。

关于dynamic - 为永恒而爬行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13327366/

相关文章:

java - java中动态类加载的问题

javascript - 动态重新加载页面时如何使用函数

wordpress - 在源代码中显示 Yoast 的关键字?

ajax爬取的Apache重写条件

javascript - 用 JavaScript 制作一个 Discord 机器人 : Attempting to make a game of wordchain between two players

c# - Dialog Stack.Forward 在 Context.Forward 工作的地方不起作用

php - HTML 和 PHP 文件之间的动态表单验证。这可能吗?

javascript - 将链接替换为其他链接中的文本内容 - 抽象代码

seo - Google SEO - 用于提交站点地图的网页中的重复内容

api - Facebook Messenger Delivery 回调随机丢失