我尝试了两种不同的网络爬虫(Sistrix 和 http://ssitemap.com)。两个抓取工具都报告有关 URL 重复内容的错误,例如 /
和 /?katID=12
.
事实证明,如果爬虫调用url /projekte/index.php?katID=12
它找到了 <a href="/">Home</a>
并将其添加为 /?katID=12
的链接.看起来像来自 url 的参数 ?katID=12
被添加到页面上没有参数的每个链接。
如果我使用浏览器或 wget,我会看到指向 /
的简单 html 链接随心所欲。
我做错了什么吗?服务器配置?
这是抓取工具中的错误还是功能?
最佳答案
我添加了 <link rel="canonical" href="...">
到每个页面以帮助抓取工具识别相同的页面。
另见 http://support.google.com/webmasters/bin/answer.py?hl=en&answer=139394
关于php - 爬虫从url添加参数到链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15768677/