抓取和网页抓取之间有区别吗?
如果有差异,收集一些网络数据以提供数据库供以后在自定义搜索引擎中使用的最佳方法是什么?
最佳答案
抓取基本上就是 Google、Yahoo、MSN 等所做的事情,寻找任何信息。抓取通常针对某些网站,获取特定数据,例如为了进行价格比较,因此编码完全不同。
通常,抓取工具会针对它应该抓取的网站进行定制,并且会做(好的)爬虫不会做的事情,即:
- 不考虑 robots.txt
- 将自己标识为浏览器
- 提交包含数据的表单
- 执行 Javascript(如果需要 像用户一样行事)
关于search-engine - 网络爬行和网络抓取有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4327392/