我有兴趣进行网络爬网。我在看solr
。solr
是否进行Web爬网,或者执行Web爬网的步骤是什么?
最佳答案
实际上,Solr 5+确实可以进行网络爬网了!
http://lucene.apache.org/solr/
较早的Solr版本不会单独进行Web爬网,因为从历史上看,它是提供全文本搜索功能的搜索服务器。它建立在Lucene之上。
如果您需要使用另一个Solr项目对网页进行爬网,那么您可以使用许多选项,包括:
Nutch-http://lucene.apache.org/nutch/
Websphinx-http://www.cs.cmu.edu/~rcm/websphinx/
JSpider-http://j-spider.sourceforge.net/
Heritrix-http://crawler.archive.org/
如果要使用Lucene或SOLR提供的搜索功能,则需要从Web爬网结果构建索引。
另请参阅:
Lucene crawler (it needs to build lucene index)
关于solr - solr会进行网络爬网吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1781247/