java - 是否可以在 solr 中存储完整的 html 页面源代码?

标签 java solr nutch

在我之前的问题中,我得到的答案是我可以在不使用任何数据库(Is it possible to store data in solr?)的情况下在 solr 中存储小索引(几个站点)数据。我想知道,是否可以在不使用任何数据库的情况下将完整的 html 页面源代码存储在 solr 中?

最佳答案

如果您想抓取网站并将其编入索引,Nutch with Solr 是一个解决方案。
Nutch with Solr Tutorial会让你开始。
但是,Nutch 不会维护带有 html 标签的原始 Solr 代码。

您需要通过下载 html 页面来开发自定义解决方案,然后才能使用 Solr Extracting Request Handler向 Solr 提供 HTML 文件并从 html 文件中提取内容。例如在link

Solr 使用 Apache Tikauploaded html file 中提取内容

您还可以检查HTMLStripCharFilterFactory如果您将数据作为 html 文本提供。

关于java - 是否可以在 solr 中存储完整的 html 页面源代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14829631/

相关文章:

使用 solr dismax 按单词的一部分搜索

lucene - 使用 Dismax 获取所有结果,例如 q=* :*?

elasticsearch - Nutch以外的其他与Elasticsearch合作的抓取工具

java - Java从xml中获取特定属性值

java - 安装多个java文件以同时使用

java - 编译错误 : Cannot Find Symbol

java - 在 Solr(J) 中搜索嵌套文档

java - 我应该部署在 GAE 还是 AWS 上?

windows - Windows : Failed to set permissions of path 中的 Nutch

Java 在不同的类中使用解析后的 xml