我对机器学习、NLP 和 LDA 都很陌生,所以我不确定我是否完全正确地解决了我的问题;但我正在尝试使用已知主题和多个主题选择进行无监督主题建模。 基于Topic modelling, but with known topics?
我可以用每个主题标记我的每一个文档,并且我的无监督集有效地变成受监督的(LLDA 是一种监督技术)。
阅读本文paper我还遇到了一些其他潜在的问题 - 首先,我的数据按类别和子类别进行组织。根据论文,LLDA 在文本之间具有显着的语义区别时更加有效 - 我不会特别对我相对接近的子类别进行区分。此外,论文指出 LLDA 并不是被设计为多标签分类器。
我希望通过包含 GuidedLDA 的引导部分来弥补这些弱点(我还没有读过这方面的论文,但我确实读过 https://medium.freecodecamp.org/how-we-changed-unsupervised-lda-to-semi-supervised-guidedlda-e36a95f3a164 )。
是否有任何算法(我假设对 LLDA 进行了修改,但我在这方面的阅读不是很好)允许人们使用某种形式的直觉来帮助具有已知主题类的无监督主题模型选择多个主题?
至于为什么我不只使用 Guided LDA - 嗯,我计划对其进行测试,看看它的效果如何(与 LLDA 一起)。但它也不是为多个标签而设计的。
如果重要的话,请注意 - 我实际上正在使用文档和文字来存储我的数据,我已经阅读过有关 LDA 与其他数据类型一起使用的信息。
进一步说明 - 我有相当多的 Python 经验,尽管我听说有一个很好的主题建模工具,名为 Mallet,我可能会探索它,但尚未研究(也许它有这方面的东西?)
最佳答案
正如您所说,您将尝试 Guided LDA,您可以通过以下方式获得多个标签:
有一种称为 theta 分布的分布,或者当我们想要获取文档的主题时,引导 LDA 的输出将是一个数组,其中包含每个文档的每个主题的概率。我们通常会选择概率最高的主题。也许您可以根据您的问题设置一个阈值,然后选择概率大于该阈值的主题。
这将帮助您解决具有多个标签的无监督引导主题建模问题。
关于python - 标签式LDA+引导式LDA主题建模,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54814727/