java - Lucene索引没有html css标签java

标签 java html lucene tags

我正在使用 lucene 使用 java 编程语言来索引我的数据。但是,当我检索 lucene 索引的术语时,它们会显示为 html 之类的标签(html 被视为术语而不是标签,lucene 不会删除它)。 是否有任何代码或库(例如英语分析器)可以删除所需的 html 标签?

最佳答案

如果你想在 Lucene 中索引之前删除 html 标签,你可以使用 PatternReplaceCharFilter 。它使用正则表达式作为替换字符串的目标。

您可以像这样创建字符过滤器:

CharFilter cf = new PatternReplaceCharFilter(Pattern.compile("<[^>]*>"), "", reader);

这将用空字符串替换所有 html 标签,因此它将被删除。

关于java - Lucene索引没有html css标签java,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58345475/

相关文章:

javascript - 如何使用jquery添加开始html标签?

javascript - WebKit 和 Gecko 之间的样式行为差异

java - 如何在 SOLR 中将 boolean 值转换为整数?

elasticsearch - 如何在 Elasticsearch 中按天聚合查询?

java - Visual Studio Code - Java - 导入错误等

java - Java中的两个数组声明有什么区别?

javascript - Angular 表达不评估

php - 在 MySQL 全文搜索中处理拼写错误的最佳方法

java - 使用Collections进行整数排序,使用Java中的自定义类

java - java中static final transient的作用是什么?