java - 在 Lucene 中,TokenFilter 如何发出多个术语?

标签 java lucene tokenize

我正在使用 Lucene 3.2。如何使用不仅可以过滤/修改术语,还可以将其他术语插入流中的 TokenFilter?

例如,我想要一个将“tv42lcd”作为输入并在流中插入单词“tv42lcd”、“tv”、“42”、“lcd”的过滤器。

我知道我可以通过实现我自己的 Tokenizer 来做到这一点。但我宁愿仍然使用提供的 StandardTokenizer。

最佳答案

您始终可以将默认值与自定义混合使用:尽可能使用 StandardTokenizer 逻辑,然后包装其输出并在顶部添加自定义标记化。您可以通过扩展来实现,但它是 almost always better to use composition .

关于java - 在 Lucene 中,TokenFilter 如何发出多个术语?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6387939/

相关文章:

android - 是否可以在android中的eclipse中导入Lucene库

java - 卢塞恩 : Search with partial words

python - 计算标记化网址中的单词数

java - 使用 Flyway 的 MySQL JDBC 驱动程序

java - 通过组合 arraylist-elements 过滤 dir 中的文件名

java - Lucene (Java) 中的过滤术语计数

regex - 使用正则表达式从 Forth 源代码中剥离注释

python - Python 中 C++ 的简单分词器

java - MPAndroid BarChart 标签计数和 ValueFormatter 无法正常工作

java - Textalignment 在 java swing jTextPane 中不起作用