我正在使用 Java 中的 Mallet 计算 LDA 的模型估计,并且正在寻找 term-topic-matrix。
计算模型并顺利得到主题-文档-矩阵:
ParallelTopicModel model = ...; //... estimating the model
int numTopics = model.getNumTopics();
int numDocs = model.getData().size();
// Getting the topic-probabilities
double[][] tmDist = new double[numDocs][];
for (int i = 0; i < numTopics; i++) {
tmDist[i] = model.getTopicProbabilities(i);
}
现在我只能得到前 n 个词:
Object[][] topWords = model.getTopWords(5);
for(int i = 0; i < topWords.length; i++){
for(int j = 0; j < topWords[i].length; j++){
System.out.print(topWords[i][j] + " ");
}
System.out.println();
}
关于这个问题的唯一答案我只找到了关于这个问题的问题/答案是关于 Mallet 的命令行版本。
最佳答案
这段代码将为您提供特定文档的所有单词的主题分配。
for (int topic = 0; topic < numTopics; topic++) {
Iterator<IDSorter> iterator = topicSortedWords.get(topic).iterator();
out = new Formatter(new StringBuilder(), Locale.US);
out.format("%d\t%.3f\t", topic, model.getTopicProbabilities(docID)[topic]);
int rank = 0;
while (iterator.hasNext() && rank < 5) {
IDSorter idCountPair = iterator.next();
out.format("%s (%.3f) ", dataAlphabet.lookupObject(idCountPair.getID()), idCountPair.getWeight());
rank++;
}
System.out.println(out);
}
System.out.println("\n");
关于java - 从 Mallet 中的 LDA 模型获取词主题矩阵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27933283/