我对此有一些想法,但我可以看到两者都有问题。我不需要100%准确的数据。 80% 的解决方案可以让我对我将用户路由到的最流行的域进行概括,这很好。
选项 1 - 使用 PHP。通过文件 track.php
路由链接,确保在跟踪点击之前引用页面来 self 的域。然后,该页面将用户路由到最终预期的 URL。显然机器人可以欺骗这一点。做很多吗?我还可以检查用户代理。再说一遍,我知道很多机器人都会对此进行欺骗。
选项 2 - 使用 JavaScript。在点击函数上执行 JavaScript,将点击写入数据库,然后将用户引导至最终 URL。
这两种方法感觉都可能会导致爬虫程序在跟踪我的传出链接时出现问题。跟踪这些传出点击的最有效方法是什么?
最佳答案
跟踪传出链接的最有效方法(Facebook、Twitter 和几乎所有搜索引擎都使用它)是“track.php
”类型文件。
检测机器人可以被视为一个单独的问题,这些问题很好地涵盖了这些方法:http://duckduckgo.com/?q=how+to+detect+http+bots+site%3Astackoverflow.com但是,在用户代理中对“bot”进行简单的字符串搜索可能会让您接近 80%*(并且观察 /robots.txt
的命中情况,具体取决于机器人的类型您正在处理的问题,让您获得 95%*)。
*:基于零具体数据的半受过教育的猜测
关于php - 如何在不跟踪机器人的情况下跟踪传出链接点击?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9858350/