http-headers - 用于限制 Google Search Appliance bot (gsa) 的 HTTP 响应代码

标签 http-headers web-crawler google-search-appliance throttling http-response-codes

应该使用什么 HTTP 响应代码来限制行为不当的网络爬虫:

是否应该在标题或正文中返回任何解释?

最佳答案

实际上,推荐的(RFC6585)http状态是429 Too Many Requests .例如,它用于 Twitter REST API Rate Limiter。 .

但是,GSA 将在内部 return 503 Service Unavailable如果你flood it with requests ,因此 IMO 可以安全地假设它也期望外部站点以相同的方式运行。

我选择了 503 Service Unavailable在我的 throttle 解决方案上。

关于http-headers - 用于限制 Google Search Appliance bot (gsa) 的 HTTP 响应代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13477889/

相关文章:

c# - HttpModule 向请求添加 header

python - Python3中方法has_key的替换

php - Symfony 爬虫在没有 FORM 的 SELECT 列表中选择 OPTION

asp.net - MVC Controller 返回分块内容编码

java - 如何在 Wicket 的 Ajax 响应中设置自定义 HTTP 响应 header ?

mysql - Google Search Appliance 索引 MySQL 数据库

java - 自动生成站点地图

html - 谷歌搜索应用页面的样式

php - 直接用 "header()"调用发送cookie头可以吗?

java - Nutch 不会抓取带有查询字符串参数的 URL