这是我计算文档集合中文档的 TF-IDF 值的程序。 这工作正常,但在计算“IDF”值(查找包含特定术语的文档数量)时会花费大量时间。
是否有更有效的方法来查找包含特定术语的文档数量?
freq = termsFreq.getTermFrequencies();
terms = termsFreq.getTerms();
int noOfTerms = terms.length;
score = new float[noOfTerms];
DefaultSimilarity simi = new DefaultSimilarity();
for (i = 0; i < noOfTerms; i++) {
int noofDocsContainTerm = noOfDocsContainTerm(terms[i]);
float tf = simi.tf(freq[i]);
float idf = simi.idf(noofDocsContainTerm, noOfDocs);
score[i] = tf * idf ;
}
////
public int noOfDocsContainTerm(String querystr) throws CorruptIndexException, IOException, ParseException{
QueryParser qp=new QueryParser(Version.LUCENE_35, "docuemnt", new StandardAnalyzer(Version.LUCENE_35));
Query q=qp.parse(querystr);
int hitsPerPage = docNames.length; //minumum number or search results
IndexSearcher searcher = new IndexSearcher(ramMemDir, true);
TopScoreDocCollector collector = TopScoreDocCollector.create(hitsPerPage, true);
searcher.search(q, collector);
ScoreDoc[] hits = collector.topDocs().scoreDocs;
return hits.length;
}
最佳答案
如果您有一个术语并想要它的文档频率,即包含该术语的文档数量:请调用 IndexReader.termEnum(Term)方法。它为您提供了一个 TermEnum 对象。然后,调用TermEnum.docFreq()方法。它为您提供了该术语在索引中的文档频率。
关于java - 使用 Lucene 计算 TFIDF 分数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10360120/