我有一个标记化文本(分割句子和分割单词)。并基于此结构创建 Apache Lucene 索引。扩展或替换标准标记生成器以使用自定义标记的最简单方法是什么。我正在查看 StandardTokenizerImpl,但看起来非常复杂。请问还有其他方法吗?
最佳答案
StandardTokenizerImpl 很复杂,因为它是从 JFlex 语法生成的。
如果你想实现自己的分词器,你需要做的就是扩展Tokenizer类。
例如,WhitespaceTokenizer是一个简单的分词器,可以在空格处分割标记。
关于java - apache lucene 4 的自定义分词器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12590566/