我有一个评论集合,每个评论都讨论一个主题。我想找出这些评论中讨论的前 m 个主题。另外,我以在线方式收到这些评论(即我不会一次性收到全部评论,而是必须逐一处理这些评论)。我想到使用 Word2Vec 进行特征提取,然后应用一些聚类算法,如 k-means(聚类对应于一个主题),然后我可以从前 m 个聚类(其中点数最多)中得到答案。但问题是我不知道簇的数量,而且在任何时间点,不同主题(簇)的数量都是不固定的,因为新评论可能会讨论新主题(所以,这个问题不能通过应用具有不同 k 值的 k 均值来解决。那么,我应该使用其他聚类算法(如 DBSCAN),在这种情况下应该采用什么方法,还是应该使用完全不同的方法?
最佳答案
为什么你不能尝试一些简单的 LDA,从大量主题开始,然后缩小范围? https://radimrehurek.com/gensim/models/ldamodel.html
类似地,您可以查看 sense2vec,他们使用 reddit 评论来构建主题模型 https://explosion.ai/blog/sense2vec-with-spacy
关于machine-learning - 评论集中的前 m 个主题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44265674/