python - 用自然语言比较多个语料库的最佳方法是什么？

标签 python nlp nltk lda topic-modeling

我一直在为一个研究项目(使用 Gensim 和 Python)做自然语言叙述报告的 LDA 主题模型。我有几个较小的语料库(每个从 1400 到 200 个文档——我知道，这很小!)我想比较，但我不知道除了查看每个 LDA 模型(例如使用 pyLDAviz)之外该怎么做.我的学术背景不是 CS，我对 NLP 还是有点陌生。

比较语料库/主题模型中的主题有哪些好方法？例如，是否可以估计两个 LDA 模型有多少重叠？还是有其他方法可以评估几个语料库的主题相似度？

预先感谢您的帮助!

最佳答案

将语料库加入一个大语料库，用你认为好的参数做一个主题模型，然后比较主题在子语料库中的分布情况。

这是我所知道的唯一干净的方法。请注意，不同的随机种子会产生不同的主题模型，而所有其他参数都是固定的；没有语料库的主题模型。

可以在 this abstract 中找到一个示例(子语料库是科学论文发表的不同年份) (完整引用:

@InProceedings{fankhauser-etal2016,
Title                    = {Topical Diversification over Time in the {R}oyal {S}ociety {C}orpus },
Author                   = {Peter Fankhauser and J{\"o}rg Knappen and Elke Teich},
Booktitle                = {Proceedings of DH  2016},
Year                     = {2016},
Address                  = {Krakow, Poland},
Month                    = {July 12-16},
url                      = {http://dh2016.adho.org/abstracts/322},
}

关于python - 用自然语言比较多个语料库的最佳方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46001910/

上一篇：python - 获取二叉搜索树的高度

下一篇：python - 将鼠标悬停在饼图上时更改饼图的颜色

相关文章：

parsing - 将 WordNet 数据库解析为 SQL？

python - NLTK 停用词无法识别句子中的 'i'

python - 如何找到每个客户的相似地址数量？

python - Google App Engine django 模型表单不获取 BlobProperty

python - Tensorlayer 在 Tensorflow 1.10.0rc0 上失败

Python:Matplotlib 按钮不工作

python - 从 NLTK 语料库中检索句子字符串

nlp - NLP 中 Stemming 的真正目的是什么？

python - 我如何在 NLTK 中使用书籍功能(例如协调)？

python - 属性错误 : SubRequest instance has no attribute 'param'