lda - 大数据集主题建模工具 (30GB)

标签 lda topic-modeling

我正在寻找一些适用于大型数据集的主题建模工具。

我当前的训练数据集是 30 GB。我试过 MALLET topic modeling ,但我总是得到 OutOfMemoryError。

如果您有任何提示,请告诉我。

最佳答案

有许多选项可供您选择,并且这种响应与它们的比较方式无关。

我认为对于如此大的数据集,重要的是使用的近似后验推理方法,而不一定是软件实现。根据 this paper ,在线变分贝叶斯推理在时间和空间方面比 Gibbs 采样更有效。虽然我从未使用过它,但 gensim包看起来不错。是python的,项目的webpage有深入教程.

对于直接来自源代码的代码,请参阅 David Blei 的网页,他是 LDA 的作者之一。型号, here .他链接到多种语言(R、Java、C++)的多个实现。

关于lda - 大数据集主题建模工具 (30GB),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24734274/

相关文章:

python - 运行 Gensim LDA 时遇到问题

scala - 带 Spark 的 LDA 模型

python - 每次我在同一个语料库上训练时,LDA 模型都会生成不同的主题

python - 如何在用于主题建模的引导式 LDA 中生成术语矩阵?

python - 用于 Python 主题建模的 LDA

mahout - 使用 Mahout 训练 LDA 并检索其主题

machine-learning - HDP(分层狄利克雷过程)能否从数据中检测到主题的数量?

machine-learning - 用于文档分类的监督潜在狄利克雷分配?

machine-learning - 主题和潜在狄利克雷分配

java - MALLET 主题建模 : Inconsistent Estimations