html - 使用蜜 jar img 标签检测爬虫/恶意机器人的建议

标签 html image detect scraper honeypot

我们想在我们的 html 主体中设置一个小蜜 jar 图像来检测抓取器/坏机器人。

有没有人设置过这样的东西?

我们认为最好的方法是:

a) 通过以下方式评论 html:

<!-- <img src="http://www.domain.com/honeypot.gif"/> -->

b) 通过以下方式将 css 样式应用于图像,使其对浏览器隐藏:

.... id="honeypot" ....

#honeypot{
    display:none;
    visibility:hidden;
}

使用上述是否有人预见到任何适当和真实的用户代理会拉取图像/尝试渲染图像的情况?

honeypot.gif 将是一个 mod_rewritten 的 php 脚本,我们将在其中进行日志记录。

虽然我知道上述 2 个条件可能会被任何编码良好的爬虫跳过,但它至少会揭示一些非常脏的问题。

关于执行此操作的最佳方法还有其他建议吗?

最佳答案

机器人会忽略您的 img 标签,因为它在评论中。

相反,您可以考虑创建一个不可见的 div,其中包含指向同一站点上的触发 URL 的链接(最好在同一目录中,以防机器人对深度敏感)。

关于html - 使用蜜 jar img 标签检测爬虫/恶意机器人的建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7340105/

相关文章:

html - 即使只是调整大小,也可以在不同视口(viewport)上设置样式元素?

css - 隐藏访问过的链接高亮 CSS

javascript - 仅针对单个 href 更改检测 iPad(或 iOS)

javascript - 按数据属性排序

javascript - 如何使用弧法创建自定义圆?

apache-flex - 在 Flex 中列表为空时显示的背景图像

android - 去除android中图像的白色背景

javascript - 使用 jQuery 检测表单输入的自动完成

c# - C#检测特定进程的CPU架构

javascript - 通过HTML上传/加载图像,并在JS Canvas上显示