我正在使用 Lucene 3.2。如何使用不仅可以过滤/修改术语,还可以将其他术语插入流中的 TokenFilter?
例如,我想要一个将“tv42lcd”作为输入并在流中插入单词“tv42lcd”、“tv”、“42”、“lcd”的过滤器。
我知道我可以通过实现我自己的 Tokenizer 来做到这一点。但我宁愿仍然使用提供的 StandardTokenizer。
最佳答案
您始终可以将默认值与自定义混合使用:尽可能使用 StandardTokenizer
逻辑,然后包装其输出并在顶部添加自定义标记化。您可以通过扩展来实现,但它是 almost always better to use composition .
关于java - 在 Lucene 中,TokenFilter 如何发出多个术语?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6387939/