我正在使用 Lucene 的 Term Freq vector 来计算文档之间的余弦相似度, 假设我的文档有这 3 个术语,“欠”“欠”“欠”。 Lucene 将此视为 3 个单独的术语,但其中 3 个表示相同的“欠”。 Lucene中有没有可以用来按语义索引的功能?这样它将“欠”“欠”“欠”索引为一个词“欠”,词频=3?
如果没有,我欢迎任何完成此任务的建议?
最佳答案
您可以将 SnowballFilter 与 EnglishStemmer 结合使用。它将用根动词单词替换这些动词(在您的示例中,它将是 owe,或者可能 ow)。
关于java - Lucene 语义索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10360207/