java - 如何忽略 Solr 索引中的某些 HTML 部分(例如页眉、菜单、页脚)？

我一直在使用 Nutch + Solr (4.3.0) 来索引站点，并使用 Nutch 提供的 schema.xml。

我的问题是，当我进行的搜索包含标题或菜单上出现的某些单词时，Solr 显然会响应所有页面。

我想要的是从索引中删除这些 HTML block ，以便搜索不包含那些“误报”。

我正在尝试类似的事情:

<charFilter class="solr.PatternReplaceCharFilterFactory" 
      pattern="HEADER STARTS(.*?)HEADER ENDS" replacement="" />

应用于我的内容fieldType的索引分析器，即“HEADER STARTS/ENDS”HTML注释，但它似乎根本没有效果。

我无法找到更好的谷歌搜索...但我是这个技术堆栈的真正新手。

欢迎任何帮助!

谢谢!!!

最佳答案

您可以看看boilerpipe 。它是一个专门适合该问题的 java 库。我在一个项目中使用效果很好，但是我用的是普通的Lucene。对于 Solr 集成，有 an open issue

关于java - 如何忽略 Solr 索引中的某些 HTML 部分(例如页眉、菜单、页脚)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16906695/