php - 爬虫从url添加参数到链接

标签 php http parameters apache2 web-crawler

我尝试了两种不同的网络爬虫(Sistrix 和 http://ssitemap.com)。两个抓取工具都报告有关 URL 重复内容的错误,例如 //?katID=12 .

事实证明,如果爬虫调用url /projekte/index.php?katID=12它找到了 <a href="/">Home</a>并将其添加为 /?katID=12 的链接.看起来像来自 url 的参数 ?katID=12被添加到页面上没有参数的每个链接。

如果我使用浏览器或 wget,我会看到指向 / 的简单 html 链接随心所欲。

我做错了什么吗?服务器配置?

这是抓取工具中的错误还是功能?

最佳答案

我添加了 <link rel="canonical" href="...">到每个页面以帮助抓取工具识别相同的页面。

另见 http://support.google.com/webmasters/bin/answer.py?hl=en&answer=139394

关于php - 爬虫从url添加参数到链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15768677/

相关文章:

php - 如何获取 Codeigniter 项目中所有 Controller 的数组?

node.js - 浏览 Node.js http 服务器

javascript - 这两种看似相似的闭包类型有什么区别?

java - 如何将类作为函数参数传递

MySQL存储过程在参数中传递数字数组

php - 在 Laravel 中连接表两次的语法

php - 数据表 : Using row to columns with php/mysql or else?

scala - Play Framework : how to display a Future[List[String]]?

android - 如何在 Android 上保存/上传图像到服务器?

php - 如何在 Eloquent ORM laravel 中获取最后插入的 ID