java - 识别搜索爬虫

标签 java tomcat web web-crawler

我有一个网站可以计算有多少人访问了该特定页面,但我不想计算搜索爬虫何时访问它们。有没有办法用java来识别它是爬虫还是真实用户? 使用Java7和tomcat

谢谢

最佳答案

正如 Henry 提到的,您必须检查每个请求的 User-Agent header 。

您可以使用这个蜘蛛列表:http://www.useragentstring.com/pages/Crawlerlist/

此外,您可以检查模式是否包含“bot”、“crawler”等。另请注意,某些机器人可以使用普通用户用户代理字符串来掩盖自己。

这个检查必须很快,所以你需要为爬虫名称创建缓存。或者您可以使用 Google Analytics,我认为它不算网络爬虫。

关于java - 识别搜索爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33250596/

相关文章:

java - 使用java套接字进行文件传输: Error on client side "Exception in thread "main"java. lang.NullPointerException”

java - Spring boot - 如何通过每月数据刷新来改善应用程序的 api 响应时间

java - Java并发应用中MySQL死锁MySQLTransactionRollbackException

Tomcat ./version.sh 搜索另一个(已删除)版本

c++ - 是否可以只使用 QT 和 WebAssembly(而不是 HTML + CSS + JavaScript)来开发前端 Web?

python - 如何使用 django 通用 View ?

java - 获取XML数据后,如何解析它并转换为JSON?

java - 汤姆猫错误?或者是其他东西?

java - 将 CAS 集成到 Java 动态 Web 项目中

html - 像金字塔这样的 flex 元素