machine-learning - 评论集中的前 m 个主题

标签 machine-learning nlp cluster-analysis text-classification

我有一个评论集合,每个评论都讨论一个主题。我想找出这些评论中讨论的前 m 个主题。另外,我以在线方式收到这些评论(即我不会一次性收到全部评论,而是必须逐一处理这些评论)。我想到使用 Word2Vec 进行特征提取,然后应用一些聚类算法,如 k-means(聚类对应于一个主题),然后我可以从前 m 个聚类(其中点数最多)中得到答案。但问题是我不知道簇的数量,而且在任何时间点,不同主题(簇)的数量都是不固定的,因为新评论可能会讨论新主题(所以,这个问题不能通过应用具有不同 k 值的 k 均值来解决。那么,我应该使用其他聚类算法(如 DBSCAN),在这种情况下应该采用什么方法,还是应该使用完全不同的方法?

最佳答案

为什么你不能尝试一些简单的 LDA,从大量主题开始,然后缩小范围? https://radimrehurek.com/gensim/models/ldamodel.html

类似地,您可以查看 sense2vec,他们使用 reddit 评论来构建主题模型 https://explosion.ai/blog/sense2vec-with-spacy

关于machine-learning - 评论集中的前 m 个主题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44265674/

相关文章:

python - 如何在不手动下载模型的情况下访问/使用 Google 的预训练 Word2Vec 模型?

python-2.7 - 调整后的互信息 (scikit-learn)

algorithm - K 均值和文档聚类中的正确顺序输出

python - 损失函数作为几个点的最小值,自定义损失函数和梯度

python-3.x - 在python中具有多元自变量的Arima

python - 单个单词的 PDFMiner 提取 - LTText LTTextBox

machine-learning - 用于从文本中提取 Action 的 NLP

machine-learning - 我可以训练一些东西来检测屏幕上的物体并根据结果单击适当的位置吗?

node.js - 获取不需要的 Brain.js 输出

algorithm - 如何根据过去的观察对数据进行聚类和排序?