我有一个网站可以计算有多少人访问了该特定页面,但我不想计算搜索爬虫何时访问它们。有没有办法用java来识别它是爬虫还是真实用户? 使用Java7和tomcat
谢谢
最佳答案
正如 Henry 提到的,您必须检查每个请求的 User-Agent
header 。
您可以使用这个蜘蛛列表:http://www.useragentstring.com/pages/Crawlerlist/
此外,您可以检查模式是否包含“bot”、“crawler”等。另请注意,某些机器人可以使用普通用户用户代理字符串来掩盖自己。
这个检查必须很快,所以你需要为爬虫名称创建缓存。或者您可以使用 Google Analytics,我认为它不算网络爬虫。
关于java - 识别搜索爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33250596/