html - 使用身份验证所需的查询创建 XML 站点地图

标签 html xml google-analytics web-crawler sitemap

我的任务是为网络爬虫创建一个 xml 站点地图。问题是,除非您同意这些条款,否则唯一可以查看的页面是主页启动页面。现在已经有谷歌分析从这些页面发送数据,所以谷歌知道它们。我可以通过简单地将 tos=true 添加到查询字符串来绕过需要同意条款的用户。

我的问题是,我是否应该使用查询字符串将所有页面添加到站点地图中,以便机器人可以访问它们?还是应该将这些页面添加到站点地图中,即使机器人无法找到这些页面?

我有谷歌,但还没有真正找到包含或排除爬虫机器人无法立即访问的页面的最佳做法。

起初感觉我们不需要站点地图,但我们肯定想要并且已经对需要 auth 的页面进行了一些分析,所以我对这种情况下的最佳实践有点不知所措。

最佳答案

您应该将其添加到查询中,以便爬虫可以找到它们,如果您不这样做,那么它们将无法访问您的 XML 文件,我猜您想要完成的是让爬虫访问 XML 文件。

在我看来,您应该添加查询,否则如果爬虫无法访问 XML 文件,我认为您根本就没有必要拥有这些文件。

在这个 link他们正在从站点地图自己的网站进行查询,并且此链接在使用站点地图时还显示了另一件重要的事情,那就是实体转义。如果链接格式正确,爬虫只能理解链接。

http://www.sitemaps.org/protocol.html#submit_robots

关于html - 使用身份验证所需的查询创建 XML 站点地图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31954484/

相关文章:

html - em 的响应尺寸

html - CSS动画中的中心图像

jquery - img 标签周围的空格会导致不同的布局

java - 如何在testng.xml中指定方法名、类名和参数的测试?

html - 选择以类名开头并包含部分字符串的元素

javascript - 如何将 RSA PlblicKey XML 转换为 PEM 格式

javascript - 需要帮助避免 HIERARCHY_REQUEST_ERR : DOM Exception 3 error

javascript - 如何使用 ga.js 而不是 Analytics.js 设置 Google Analytics 用户 ID

android - 我正在 Google Analytics 上跟踪我的 Android 应用。为什么我似乎有 Macintosh 用户?

javascript - 用于 AJAX 目标跟踪的 Google Analytics 虚拟页面