java - Lucene 语义索引

标签 java apache lucene semantics

我正在使用 Lucene 的 Term Freq vector 来计算文档之间的余弦相似度, 假设我的文档有这 3 个术语,“欠”“欠”“欠”。 Lucene 将此视为 3 个单独的术语,但其中 3 个表示相同的“欠”。 Lucene中有没有可以用来按语义索引的功能?这样它将“欠”“欠”“欠”索引为一个词“欠”,词频=3?

如果没有,我欢迎任何完成此任务的建议?

最佳答案

您可以将 SnowballFilter 与 EnglishStemmer 结合使用。它将用根动词单词替换这些动词(在您的示例中,它将是 owe,或者可能 ow)。

关于java - Lucene 语义索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10360207/

相关文章:

Java 不同的可用堆大小

java - 将列名更改为其他时,TableView提供错误

c++ - 如何在 Apache 中托管 C 程序?

java - Apache commons 中的 FileUtils 出现问题

php mysql 全文搜索 : lucene, sphinx,或者?

java - 在自动完成的东西中加粗用户输入

Java菜单栏隐藏背景图像

java - Libgdx Actor.setBounds() 相对于 Actor.x 和 Actor.y 等

java - Apache HttpClient POST 上传文件不适用于 MultipartEntityBuilder 上传

java - 如何处理短语查询和术语分组