lucene - Mediawiki + Lucene : How To Strip Markup?

标签 lucene mediawiki markup

我已将 Lucene 搜索扩展 ( http://www.mediawiki.org/wiki/Extension_talk:Lucene-search ) 与我的 mediawiki 安装集成。它一切都工作得很好,但是 - lucene 似乎也索引了所有 mediawiki/html 标记,并且它显示在结果中。

即搜索“green”将返回带有标记的结果,例如 style="background:green; color:white

有没有办法去掉搜索结果中的所有标记?我相信维基百科使用相同的搜索插件,他们是如何做到的?

最佳答案

在使用 Lucene 对其进行索引之前,您可能必须先转换原始 wiki 标记。处理纯 XML 内容时,可以仅使用 <xsl:value-of select="text()"/> 的 XSL 转换。来提取文本内容。

恐怕这不适用于 wiki 标记,但也许您可以捕获 HTML 转换后的页面?

关于lucene - Mediawiki + Lucene : How To Strip Markup?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/778166/

相关文章:

lucene - 如何查询lucene的空字段?

ide - 哪个文本编辑器支持 Wiki 代码的语法突出显示?

java - 根据用户输入和已知字段创建查询

javascript - Media Wiki 页面中的 jQuery(不仅仅在 Monobook.js 或扩展中)

r - 使用 RCurl 登录 mediawiki

html - 如何让文本刷新到表格单元格的顶部/底部

javascript - 当我需要在元素之间动态添加标记时,如何解决 React JSX 的相邻组件包装器错误?

python - 解析文本以替换引号和嵌套引号

java - 将字符串拆分为有意义的单词

zend-framework - 具有多个相同性质的字段的Lucene索引