java - apache lucene 4 的自定义分词器

标签 java apache lucene tokenize

我有一个标记化文本(分割句子和分割单词)。并基于此结构创建 Apache Lucene 索引。扩展或替换标准标记生成器以使用自定义标记的最简单方法是什么。我正在查看 StandardTokenizerImpl,但看起来非常复杂。请问还有其他方法吗?

最佳答案

StandardTokenizerImpl 很复杂,因为它是从 JFlex 语法生成的。

如果你想实现自己的分词器,你需要做的就是扩展Tokenizer类。

例如,WhitespaceTokenizer是一个简单的分词器,可以在空格处分割标记。

关于java - apache lucene 4 的自定义分词器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12590566/

相关文章:

java - JLabel 和 JRadiobutton 之间差距巨大?

php - 覆盖每个虚拟主机的 php_value

java - hibernate 搜索/Lucene : String field cannot be used for sorting "indexed with multiple values per document, use SORTED_SET instead"

python - pyravendb查询参数解析错误

java - 将 Lucene 的 MoreLikeThis 限制为我文档的一个子集

java - Bean 定义和名称查找

java - 将java应用程序作为windows服务

java - 编写 equals 方法来比较两个数组

linux - mod_rewrite 保持递归重写

apache - 将 Apache 配置为 ASP.NET Core 非 SSL 应用程序的 HTTPS 反向代理是否存在安全问题?