solr - solr会进行网络爬网吗？

标签 solr web-crawler

我有兴趣进行网络爬网。我在看solr。

solr是否进行Web爬网，或者执行Web爬网的步骤是什么？

最佳答案

实际上，Solr 5+确实可以进行网络爬网了！
http://lucene.apache.org/solr/

较早的Solr版本不会单独进行Web爬网，因为从历史上看，它是提供全文本搜索功能的搜索服务器。它建立在Lucene之上。

如果您需要使用另一个Solr项目对网页进行爬网，那么您可以使用许多选项，包括：

Nutch-http://lucene.apache.org/nutch/
Websphinx-http://www.cs.cmu.edu/~rcm/websphinx/
JSpider-http://j-spider.sourceforge.net/
Heritrix-http://crawler.archive.org/

如果要使用Lucene或SOLR提供的搜索功能，则需要从Web爬网结果构建索引。

另请参阅：

Lucene crawler (it needs to build lucene index)

关于solr - solr会进行网络爬网吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1781247/

上一篇：django - 在 Django 中创建 session

下一篇：sql - SQL查询不在两个日期之间

相关文章：

mysql - Apache Solr 数据源配置错误

tomcat - SOLR:没有正在运行的 SolrCores 错误消息

php - 无法使用 php 脚本下载 csv

ruby - ruby 屏幕抓取脚本中的问题

hibernate - 如何使用 spring mvc 配置 ApacheSolr？

solr - 如何通过指定深度来抓取网站

solr - 正向索引与反向索引为什么？

javascript - 欺骗浏览器调用 JavaScript 事件？

python - 使用 Python 导入 Tweepy 时出错

character-encoding - 不确定网络爬虫是否正确读取我的网站

©2024 IT工具网联系我们