text - 围绕主题聚集短语

我遇到了一个非常不寻常的问题。我有一组从大量文档中提取的短语(名词短语)。这些短语的长度为 >=2 且 <=3 个单词。需要对这些短语进行聚类，因为提取的短语数量非常大，并且将它们显示为简单列表可能对用户没有用处。

我们正在考虑对这些进行聚类的非常简单的方法。如果我最初将主题数量保持固定，是否有一个快速工具/软件/方法可以用来对这些进行聚类，以便集群内的所有短语都属于特定主题/主题？我没有任何训练集或任何其他可以用作训练集的集群。

最佳答案

主题分类不是一个简单的问题。

用于对长文档(100 个单词)进行分类的传统方法通常基于频繁出现的单词，并且不适合非常短的消息。我相信你的问题有点类似于推文分类。

两篇非常有趣的论文是:

关于text - 围绕主题聚集短语，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7736452/

相关文章：

python - 在多列数据上拟合 MultinomialNB