machine-learning - Mallet Dirichele 参数大于 1

标签 machine-learning lda topic-modeling mallet

我一直在使用 MALLET 来执行我的主题建模 (LDA)。

我尝试在数据集中发现 20 个主题 结果如下(关键字列表对于这个问题并不重要):

0   0.05013 list_of_topic_keywords_0
1   0.06444 list_of_topic_keywords_1
2   0.04946 list_of_topic_keywords_2
3   0.14458 list_of_topic_keywords_3
4   0.09248 list_of_topic_keywords_4
5   0.04865 list_of_topic_keywords_5
6   0.0977  list_of_topic_keywords_6
7   0.0653  list_of_topic_keywords_7
8   0.04557 list_of_topic_keywords_8
9   0.07494 list_of_topic_keywords_9
10  0.03577 list_of_topic_keywords_10
11  0.02867 list_of_topic_keywords_11
12  0.04184 list_of_topic_keywords_12
13  0.05251 list_of_topic_keywords_13
14  0.04231 list_of_topic_keywords_14
15  0.03207 list_of_topic_keywords_15
16  0.13064 list_of_topic_keywords_16
17  0.04922 list_of_topic_keywords_17
18  1.0515  list_of_topic_keywords_18
19  0.04922 list_of_topic_keywords_19

我读到每行中的第二个数字(例如第 0 行中的 0.05013)代表狄利克雷参数。我认为这个数字代表了该主题的重要性(在整个文档中都存在),并且我相信总数应该为 1。

然而事实并非如此!仅查看主题 18,其值为 1.0515。

有人可以解释一下这个参数真正代表什么以及为什么它对于特定主题高于 1 吗?

提前致谢

最佳答案

因为狄利克雷的参数被限制为正实数。它们不是比例。来自狄利克雷的样本是比例(它支持单纯形)。

第一个检查位置:https://en.wikipedia.org/wiki/Dirichlet_distribution

大小确实反射(reflect)了相对重要性。如果通过狄利克雷参数之和对特定参数进行归一化,您将得到比例的预期值,但不要错误地认为这就是比例。

关于machine-learning - Mallet Dirichele 参数大于 1,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26235725/

相关文章:

从 R 中的文档语料库中删除 "empty"字符项?

python IndexError 使用 gensim 进行 LDA 主题建模

python-3.x - 使用 Gensim 进行动态主题建模/哪个代码?

java - MALLET 主题建模 : Inconsistent Estimations

r - 如何用文本替换表情符号并将它们视为单个单词?

python-3.x - 负值 : Evaluate Gensim LDA with Topic Coherence

python - 喀拉斯 : TypeError: 'AddNL' object has no attribute '__getitem__'

c++ - 使用 opencv 进行年龄估计的方法

machine-learning - 使用 RBM 的深度自动编码器

python - 机器学习: How to regularize output and force them to be away from 0?