php - 如果我多次请求<在此处插入热门网站>是否会限制我访问他们的网站？

我问这个问题是因为我正在创建一个蜘蛛来从 blogger.com 收集数据，用于大学的数据可视化项目。

蜘蛛将在 browse function 上查找大约 17,000 个值。博主的信息，并(匿名)保存某些符合正确标准的内容。

我一直在运行蜘蛛(用 PHP 编写)并且它工作正常，但我不想让我的 IP 被列入黑名单或类似的东西。有谁了解企业网站及其对此类内容的限制吗？

此外，如果存在限制，我可以做些什么来规避它们吗？目前我能想到的能稍微帮助解决这个问题的是；在对站点的调用之间添加随机延迟(0 到 5 秒之间)或通过随机代理运行脚本来伪装请求。

通过必须执行上述方法之类的事情，这让我感觉好像我做错了事情。如果他们以任何理由阻止我，我会很生气，因为 blogger.com 归 Google 所有，他们的主要产品是网络蜘蛛。尽管如此，他们的蜘蛛不会只将请求发送到一个网站。

最佳答案

他们可能有某种限制，是的，有一些方法可以规避它们(例如机器人农场和使用随机代理)，但很可能没有一个是完全合法的，在技术上也不是非常可行:)

如果您正在访问blogger，您不能使用API key登录吗？直接查询数据，怎么样？这比抓取他们的页面更可靠，更不容易出问题，无论如何，抓取他们的页面可能会被禁止，一旦请求数量足够大，他们开始关心，就会导致麻烦。 Google 对于每个 API key 允许的流量非常慷慨。

如果一切都失败了，为什么不给他们写一封电子邮件。 Google 以对学术项目友好而闻名，如果需要，他们很可能会为您提供更多流量。

关于php - 如果我多次请求<在此处插入热门网站>是否会限制我访问他们的网站？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1966647/