search-engine - 网络爬行和网络抓取有什么区别?

标签 search-engine web-scraping web-crawler

抓取和网页抓取之间有区别吗?

如果有差异,收集一些网络数据以提供数据库供以后在自定义搜索引擎中使用的最佳方法是什么?

最佳答案

抓取基本上就是 Google、Yahoo、MSN 等所做的事情,寻找任何信息。抓取通常针对某些网站,获取特定数据,例如为了进行价格比较,因此编码完全不同。

通常,抓取工具会针对它应该抓取的网站进行定制,并且会做(好的)爬虫不会做的事情,即:

  • 不考虑 robots.txt
  • 将自己标识为浏览器
  • 提交包含数据的表单
  • 执行 Javascript(如果需要 像用户一样行事)

关于search-engine - 网络爬行和网络抓取有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4327392/

相关文章:

python - 通过python正则表达式爬取网页

ruby-on-rails - Rails - 如何自定义 URL 而不是显示 ID 以进行 SEO

python - 无法多次抓取来自不同搜索的不同结果而不是单个结果

python - Scrapy:连接被拒绝

python - 使用python从网站爬取多个页面

python - 使用 Selenium : How to keep logged in after closing Driver in Python

search-engine - 搜索引擎索引和类型

jquery - 非恶意隐藏链接

seo - 谷歌附加链接搜索框

Excel VBA 宏来抓取网页。无法编码以单击 html 按钮