我遇到了一个非常不寻常的问题。我有一组从大量文档中提取的短语(名词短语)。这些短语的长度为 >=2 且 <=3 个单词。需要对这些短语进行聚类,因为提取的短语数量非常大,并且将它们显示为简单列表可能对用户没有用处。
我们正在考虑对这些进行聚类的非常简单的方法。如果我最初将主题数量保持固定,是否有一个快速工具/软件/方法可以用来对这些进行聚类,以便集群内的所有短语都属于特定主题/主题?我没有任何训练集或任何其他可以用作训练集的集群。
最佳答案
主题分类不是一个简单的问题。
用于对长文档(100 个单词)进行分类的传统方法通常基于频繁出现的单词,并且不适合非常短的消息。我相信你的问题有点类似于推文分类。
两篇非常有趣的论文是:
- Discovering Context: Classifying Tweets through a Semantic Transform Based on Wikipedia
(在 2011 年 HCI 国际上发表)
- Eddi: Interactive Topic-based Browsing of Social Status Streams (在 UIST'10 上发表)
关于text - 围绕主题聚集短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7736452/