php - 如果我多次请求<在此处插入热门网站>是否会限制我访问他们的网站?

标签 php web-crawler blogger

我问这个问题是因为我正在创建一个蜘蛛来从 blogger.com 收集数据,用于大学的数据可视化项目。

蜘蛛将在 browse function 上查找大约 17,000 个值。博主的信息,并(匿名)保存某些符合正确标准的内容。

我一直在运行蜘蛛(用 PHP 编写)并且它工作正常,但我不想让我的 IP 被列入黑名单或类似的东西。有谁了解企业网站及其对此类内容的限制吗?

此外,如果存在限制,我可以做些什么来规避它们吗?目前我能想到的能稍微帮助解决这个问题的是;在对站点的调用之间添加随机延迟(0 到 5 秒之间)或通过随机代理运行脚本来伪装请求。

通过必须执行上述方法之类的事情,这让我感觉好像我做错了事情。如果他们以任何理由阻止我,我会很生气,因为 blogger.com 归 Google 所有,他们的主要产品是网络蜘蛛。尽管如此,他们的蜘蛛不会只将请求发送到一个网站。

最佳答案

他们可能有某种限制,是的,有一些方法可以规避它们(例如机器人农场和使用随机代理),但很可能没有一个是完全合法的,在技术上也不是非常可行:)

如果您正在访问blogger,您不能使用API key登录吗?直接查询数据,怎么样?这比抓取他们的页面更​​可靠,更不容易出问题,无论如何,抓取他们的页面可能会被禁止,一旦请求数量足够大,他们开始关心,就会导致麻烦。 Google 对于每个 API key 允许的流量非常慷慨。

如果一切都失败了,为什么不给他们写一封电子邮件。 Google 以对学术项目友好而闻名,如果需要,他们很可能会为您提供更多流量。

关于php - 如果我多次请求<在此处插入热门网站>是否会限制我访问他们的网站?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1966647/

相关文章:

php - file->getMimeType() 始终使用 Zend Framework 返回 application/octet-stream

python - Scrapy 没有按顺序抓取后续页面

php - CodeIgniter 在 View 中输出 XML

php - 将日期时间从 mysql 转换为人类可读的字符串

c# - 使用 HtmlAgilityPack 获取同一域上的所有链接

java - 使用 JSoup 登录 Linkedin

javascript - 实时更新 Disqus 评论计数器

templates - 在博客文章中使用变量

css - 悬停时下拉菜单消失(博主)

php - 检查给定区域/坐标内点的算法