java - apache lucene 4 的自定义分词器

我有一个标记化文本(分割句子和分割单词)。并基于此结构创建 Apache Lucene 索引。扩展或替换标准标记生成器以使用自定义标记的最简单方法是什么。我正在查看 StandardTokenizerImpl，但看起来非常复杂。请问还有其他方法吗？

最佳答案

StandardTokenizerImpl 很复杂，因为它是从 JFlex 语法生成的。

如果你想实现自己的分词器，你需要做的就是扩展Tokenizer类。

例如，WhitespaceTokenizer是一个简单的分词器，可以在空格处分割标记。

关于java - apache lucene 4 的自定义分词器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12590566/

相关文章：

java - JLabel 和 JRadiobutton 之间差距巨大？