security - 如何在不阻止行为良好的机器人的情况下阻止网络抓取?

标签 security seo screen-scraping bots

我正在构建一个包含大量产品数据库的电子商务网站。当然,当 Goggle 索引网站的所有产品时,这很好。但是,如果某个竞争对手想要 Web Scrape 怎么办?网站并获取所有图片和产品说明?

我观察了一些具有类似产品列表的网站,它们放置了验证码,因此“只有人类”才能阅读产品列表。缺点是……它对 Google、Yahoo 或其他“行为良好”的机器人是不可见的。

最佳答案

您可以通过使用 whois(在命令行或网站上)检查访问者 IP 来发现 Google 和其他人正在使用的 IP 地址。然后,一旦您积累了一些合法的搜索引擎,就允许它们在没有验证码的情况下进入您的产品列表。

关于security - 如何在不阻止行为良好的机器人的情况下阻止网络抓取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/587896/

相关文章:

c# - IPrincipal.IsInRole VS PrimaryPermission.Demand?

SEO 优化和 DNS

java - 现在,我怎样才能从屏幕上抓取这样的html行(使用java)?

android - 将 Android 应用程序从一个设备复制到另一个设备是否也会复制数据?

apache - 仅在用户登录时使用 https,否则在 Web 应用程序中使用

c# - 为什么 CASPol 允许我的 .NET 应用程序运行?

seo - 海布里斯 : User action analysis feasibility

seo - 搜索引擎和跨两个站点的重复内容

javascript - Node.js 刮板中的内存泄漏

java - 避免与 JSoup 进行无空格连接