solr - solr会进行网络爬网吗?

标签 solr web-crawler

我有兴趣进行网络爬网。我在看solr

solr是否进行Web爬网,或者执行Web爬网的步骤是什么?

最佳答案

实际上,Solr 5+确实可以进行网络爬网了!
http://lucene.apache.org/solr/

较早的Solr版本不会单独进行Web爬网,因为从历史上看,它是提供全文本搜索功能的搜索服务器。它建立在Lucene之上。

如果您需要使用另一个Solr项目对网页进行爬网,那么您可以使用许多选项,包括:


Nutch-http://lucene.apache.org/nutch/
Websphinx-http://www.cs.cmu.edu/~rcm/websphinx/
JSpider-http://j-spider.sourceforge.net/
Heritrix-http://crawler.archive.org/


如果要使用Lucene或SOLR提供的搜索功能,则需要从Web爬网结果构建索引。

另请参阅:

Lucene crawler (it needs to build lucene index)

关于solr - solr会进行网络爬网吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1781247/

相关文章:

mysql - Apache Solr 数据源配置错误

tomcat - SOLR:没有正在运行的 SolrCores 错误消息

php - 无法使用 php 脚本下载 csv

ruby - ruby 屏幕抓取脚本中的问题

hibernate - 如何使用 spring mvc 配置 ApacheSolr?

solr - 如何通过指定深度来抓取网站

solr - 正向索引与反向索引为什么?

javascript - 欺骗浏览器调用 JavaScript 事件?

python - 使用 Python 导入 Tweepy 时出错

character-encoding - 不确定网络爬虫是否正确读取我的网站