java - 识别搜索爬虫

标签 java tomcat web web-crawler

我有一个网站可以计算有多少人访问了该特定页面，但我不想计算搜索爬虫何时访问它们。有没有办法用java来识别它是爬虫还是真实用户？使用Java7和tomcat

谢谢

最佳答案

正如 Henry 提到的，您必须检查每个请求的 User-Agent header 。

您可以使用这个蜘蛛列表:http://www.useragentstring.com/pages/Crawlerlist/

此外，您可以检查模式是否包含“bot”、“crawler”等。另请注意，某些机器人可以使用普通用户用户代理字符串来掩盖自己。

这个检查必须很快，所以你需要为爬虫名称创建缓存。或者您可以使用 Google Analytics，我认为它不算网络爬虫。

关于java - 识别搜索爬虫，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33250596/

上一篇：java - 如何在日志文件中显示异常原因的详细信息

下一篇：java - tomcat增加Heap和PermGenspace

相关文章：

java - 使用java套接字进行文件传输: Error on client side "Exception in thread "main"java. lang.NullPointerException”

java - Spring boot - 如何通过每月数据刷新来改善应用程序的 api 响应时间

java - Java并发应用中MySQL死锁MySQLTransactionRollbackException

Tomcat ./version.sh 搜索另一个(已删除)版本

c++ - 是否可以只使用 QT 和 WebAssembly(而不是 HTML + CSS + JavaScript)来开发前端 Web？

python - 如何使用 django 通用 View ？

java - 获取XML数据后，如何解析它并转换为JSON？

java - 汤姆猫错误？或者是其他东西？

java - 将 CAS 集成到 Java 动态 Web 项目中

html - 像金字塔这样的 flex 元素

©2024 IT工具网联系我们