web - 如何知道我的网站被抓取了？

如何发现我的网站被抓取？

我有一些观点...

您愿意在此列表中添加更多内容吗？

如果抓取工具使用代理，哪些点可能适合/匹配？

最佳答案

作为第一个注释；考虑一下是否值得为 future 的机器人提供 API。如果您正在被另一家公司/等抓取，如果您想向他们提供信息，那么无论如何，这都会使您的网站对他们有值(value)。创建 API 将大大减少您的服务器负载，并让您 100% 清楚地了解人们对您的抓取情况。

其次，根据个人经验(我创建了相当长一段时间的网络爬虫)，通常您可以通过跟踪访问您网站的浏览器立即得知。如果他们使用一种自动化语言或一种开发语言，那么它将与您的普通用户有独特的不同。更不用说跟踪日志文件并更新您的 .htaccess 并禁止它们(如果这就是您想要做的)。

通常情况下，这很容易被发现。重复且非常一致地打开页面。

查看另一篇文章，了解有关如何处理它们的更多信息，以及有关如何识别它们的一些想法。

关于web - 如何知道我的网站被抓取了？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31316823/