python - 用自然语言比较多个语料库的最佳方法是什么?

标签 python nlp nltk lda topic-modeling

我一直在为一个研究项目(使用 Gensim 和 Python)做自然语言叙述报告的 LDA 主题模型。我有几个较小的语料库(每个从 1400 到 200 个文档——我知道,这很小!)我想比较,但我不知道除了查看每个 LDA 模型(例如使用 pyLDAviz)之外该怎么做.我的学术背景不是 CS,我对 NLP 还是有点陌生​​。

比较语料库/主题模型中的主题有哪些好方法?例如,是否可以估计两个 LDA 模型有多少重叠?还是有其他方法可以评估几个语料库的主题相似度?

预先感谢您的帮助!

最佳答案

将语料库加入一个大语料库,用你认为好的参数做一个主题模型,然后比较主题在子语料库中的分布情况。

这是我所知道的唯一干净的方法。请注意,不同的随机种子会产生不同的主题模型,而所有其他参数都是固定的;没有语料库的主题模型。

可以在 this abstract 中找到一个示例(子语料库是科学论文发表的不同年份) (完整引用:

@InProceedings{fankhauser-etal2016,
Title                    = {Topical Diversification over Time in the {R}oyal {S}ociety {C}orpus },
Author                   = {Peter Fankhauser and J{\"o}rg Knappen and Elke Teich},
Booktitle                = {Proceedings of DH  2016},
Year                     = {2016},
Address                  = {Krakow, Poland},
Month                    = {July 12-16},
url                      = {http://dh2016.adho.org/abstracts/322},
} 

).

关于python - 用自然语言比较多个语料库的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46001910/

相关文章:

parsing - 将 WordNet 数据库解析为 SQL?

python - NLTK 停用词无法识别句子中的 'i'

python - 如何找到每个客户的相似地址数量?

python - Google App Engine django 模型表单不获取 BlobProperty

python - Tensorlayer 在 Tensorflow 1.10.0rc0 上失败

Python:Matplotlib 按钮不工作

python - 从 NLTK 语料库中检索句子字符串

nlp - NLP 中 Stemming 的真正目的是什么?

python - 我如何在 NLTK 中使用书籍功能(例如协调)?

python - 属性错误 : SubRequest instance has no attribute 'param'