java - 是否可以在 solr 中存储完整的 html 页面源代码？

在我之前的问题中，我得到的答案是我可以在不使用任何数据库(Is it possible to store data in solr?)的情况下在 solr 中存储小索引(几个站点)数据。我想知道，是否可以在不使用任何数据库的情况下将完整的 html 页面源代码存储在 solr 中？

最佳答案

如果您想抓取网站并将其编入索引，Nutch with Solr 是一个解决方案。
Nutch with Solr Tutorial会让你开始。
但是，Nutch 不会维护带有 html 标签的原始 Solr 代码。

您需要通过下载 html 页面来开发自定义解决方案，然后才能使用 Solr Extracting Request Handler向 Solr 提供 HTML 文件并从 html 文件中提取内容。例如在link

Solr 使用 Apache Tika从 uploaded html file 中提取内容

您还可以检查HTMLStripCharFilterFactory如果您将数据作为 html 文本提供。

关于java - 是否可以在 solr 中存储完整的 html 页面源代码？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14829631/

相关文章：

使用 solr dismax 按单词的一部分搜索