我正在构建一个包含大量产品数据库的电子商务网站。当然,当 Goggle 索引网站的所有产品时,这很好。但是,如果某个竞争对手想要 Web Scrape 怎么办?网站并获取所有图片和产品说明?
我观察了一些具有类似产品列表的网站,它们放置了验证码,因此“只有人类”才能阅读产品列表。缺点是……它对 Google、Yahoo 或其他“行为良好”的机器人是不可见的。
最佳答案
您可以通过使用 whois(在命令行或网站上)检查访问者 IP 来发现 Google 和其他人正在使用的 IP 地址。然后,一旦您积累了一些合法的搜索引擎,就允许它们在没有验证码的情况下进入您的产品列表。
关于security - 如何在不阻止行为良好的机器人的情况下阻止网络抓取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/587896/