machine-learning - 对自由格式文本条目进行分类或聚类的好方法是什么？

标签 machine-learning grouping cluster-analysis

我有一组由用户输入的 N 个项目的评分，以及他们为该项目选择该评分的原因。评级按顺序排列(-2、-1、0、+1、+2)。我想对这些原因进行有意义的分组。例如，假设用户正在对电影进行评分，评分背后的原因可能分为 3 大类:1)。 “他们是 Actor 的 super 粉丝”，2)。 “惊人的故事情节”，4)。 “缺乏原创性”。这只是一个虚拟示例。

更具体地说，给定一组自由形式的文本条目，人们可以想出这样的分组。我知道主题建模是实现此目的的一种方法。我可以指定主题的数量 K，然后将数据输入到我的主题模型(LDA 等)中，该模型将输出 K 个主题，其中每个主题都是该主题中最可能出现的单词的列表。因此，对于这个虚拟示例，主题 1 可能包含诸如“粉丝”、“ Actor ”、“出色表演”之类的单词和短语。

还有其他方法可以进行这种聚类吗？聚类时是否需要考虑顺序评分量表？我该如何考虑这一点？

最佳答案

词嵌入可能会有用。 Here是最近的一个相关斯坦福项目。

关于machine-learning - 对自由格式文本条目进行分类或聚类的好方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28219275/

上一篇：python - 为什么 Tfidfvectorizer 中的 token_pattern 参数不能与 scikit learn 一起使用？

下一篇：python - pybrain - ClassificationDataSet - 如何理解使用 SoftmaxLayer 时的输出

python - 如何用python中的另一个值替换pandas数据框中的对象

machine-learning - 如何调优SVM Rank参数？

perl - 如何判断 Perl 代码中的一组括号是作为分组括号还是形成列表？

xml - 如何在指定计数后打破 xsl 中的表格行？

python - 如何设定K的范围并找到其最佳值？

machine-learning - 如何处理 Echo State Networks 中的随机化问题？

c# - 在 C# 中，将列表中的连续日期分组的最佳方法是什么？

python - 如何在tensorflow中实现DBSCAN聚类？

python - 类型错误 : ufunc 'true_divide' output (typecode 'd' ) could not be coerced to provided output parameter (typecode 'q' )