我正在寻找一些适用于大型数据集的主题建模工具。
我当前的训练数据集是 30 GB。我试过 MALLET topic modeling ,但我总是得到 OutOfMemoryError。
如果您有任何提示,请告诉我。
最佳答案
有许多选项可供您选择,并且这种响应与它们的比较方式无关。
我认为对于如此大的数据集,重要的是使用的近似后验推理方法,而不一定是软件实现。根据 this paper ,在线变分贝叶斯推理在时间和空间方面比 Gibbs 采样更有效。虽然我从未使用过它,但 gensim包看起来不错。是python的,项目的webpage有深入教程.
对于直接来自源代码的代码,请参阅 David Blei 的网页,他是 LDA 的作者之一。型号, here .他链接到多种语言(R、Java、C++)的多个实现。
关于lda - 大数据集主题建模工具 (30GB),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24734274/