php - 爬虫从url添加参数到链接

我尝试了两种不同的网络爬虫(Sistrix 和 http://ssitemap.com)。两个抓取工具都报告有关 URL 重复内容的错误，例如 /和 /?katID=12 .

事实证明，如果爬虫调用url /projekte/index.php?katID=12它找到了 <a href="/">Home</a>并将其添加为 /?katID=12 的链接.看起来像来自 url 的参数 ?katID=12被添加到页面上没有参数的每个链接。

如果我使用浏览器或 wget，我会看到指向 / 的简单 html 链接随心所欲。

我做错了什么吗？服务器配置？

这是抓取工具中的错误还是功能？

最佳答案

我添加了 <link rel="canonical" href="...">到每个页面以帮助抓取工具识别相同的页面。

关于php - 爬虫从url添加参数到链接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15768677/