仅仅因为软件是自动化的并不意味着它会遵守您的 robots.txt。 有哪些方法可用于检测何时有人在抓取您的网站或对您的网站进行 DDOS 攻击?假设您的网站有 100 个或 1000 个页面并且值得抓取或 DDOSing。
我有一个可能行不通的愚蠢想法:为每个用户提供一个具有唯一值的 cookie,并使用该 cookie 来了解某人何时发出第二个/第三个/等等请求。这可能行不通,因为爬虫可能不接受 cookie,因此在这个方案中,机器人在每次请求时看起来都像一个新用户。
有没有人有更好的想法?
最佳答案
您可以在页面中放置不可见或最终用户无法点击的链接。许多机器人只是跟踪所有链接。一旦有人请求其中一个链接,您几乎可以肯定拥有一个爬虫/机器人。
关于c# - 我可以使用哪些方法来检测机器人?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6785600/