text - 围绕主题聚集短语

标签 text nlp machine-learning

我遇到了一个非常不寻常的问题。我有一组从大量文档中提取的短语(名词短语)。这些短语的长度为 >=2 且 <=3 个单词。需要对这些短语进行聚类,因为提取的短语数量非常大,并且将它们显示为简单列表可能对用户没有用处。

我们正在考虑对这些进行聚类的非常简单的方法。如果我最初将主题数量保持固定,是否有一个快速工具/软件/方法可以用来对这些进行聚类,以便集群内的所有短语都属于特定主题/主题?我没有任何训练集或任何其他可以用作训练集的集群。

最佳答案

主题分类不是一个简单的问题。

用于对长文档(100 个单词)进行分类的传统方法通常基于频繁出现的单词,并且不适合非常短的消息。我相信你的问题有点类似于推文分类。

两篇非常有趣的论文是:

关于text - 围绕主题聚集短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7736452/

相关文章:

python - 在多列数据上拟合 MultinomialNB

javascript - SVG 形状和文本拖放

django - &lt;input type ="text"> django 模板中字符串中的空格

nlp - 使用 Hadoop : best practices for generating keys 解析批量文本

full-text-search - 计算形容词频率的技巧

machine-learning - 如何在交叉验证中使用过采样数据?

machine-learning - 训练算法来识别 fuse

javascript - 多字符集替换问题

c - 在 C 中读取行并将行分隔到链表中

machine-learning - 将 prop 文件转换为 arff 文件