lucene - Mediawiki + Lucene : How To Strip Markup?

标签 lucene mediawiki markup

我已将 Lucene 搜索扩展 ( http://www.mediawiki.org/wiki/Extension_talk:Lucene-search ) 与我的 mediawiki 安装集成。它一切都工作得很好，但是 - lucene 似乎也索引了所有 mediawiki/html 标记，并且它显示在结果中。

即搜索“green”将返回带有标记的结果，例如 style="background:green; color:white

有没有办法去掉搜索结果中的所有标记？我相信维基百科使用相同的搜索插件，他们是如何做到的？

最佳答案

在使用 Lucene 对其进行索引之前，您可能必须先转换原始 wiki 标记。处理纯 XML 内容时，可以仅使用 <xsl:value-of select="text()"/> 的 XSL 转换。来提取文本内容。

恐怕这不适用于 wiki 标记，但也许您可以捕获 HTML 转换后的页面？

关于lucene - Mediawiki + Lucene : How To Strip Markup?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/778166/