我已将 Lucene 搜索扩展 ( http://www.mediawiki.org/wiki/Extension_talk:Lucene-search ) 与我的 mediawiki 安装集成。它一切都工作得很好,但是 - lucene 似乎也索引了所有 mediawiki/html 标记,并且它显示在结果中。
即搜索“green”将返回带有标记的结果,例如 style="background:green; color:white
有没有办法去掉搜索结果中的所有标记?我相信维基百科使用相同的搜索插件,他们是如何做到的?
最佳答案
在使用 Lucene 对其进行索引之前,您可能必须先转换原始 wiki 标记。处理纯 XML 内容时,可以仅使用 <xsl:value-of select="text()"/>
的 XSL 转换。来提取文本内容。
恐怕这不适用于 wiki 标记,但也许您可以捕获 HTML 转换后的页面?
关于lucene - Mediawiki + Lucene : How To Strip Markup?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/778166/