machine-learning - 对自由格式文本条目进行分类或聚类的好方法是什么?

标签 machine-learning grouping cluster-analysis

我有一组由用户输入的 N 个项目的评分,以及他们为该项目选择该评分的原因。评级按顺序排列(-2、-1、0、+1、+2)。 我想对这些原因进行有意义的分组。例如,假设用户正在对电影进行评分,评分背后的原因可能分为 3 大类:1)。 “他们是 Actor 的 super 粉丝”,2)。 “惊人的故事情节”,4)。 “缺乏原创性”。这只是一个虚拟示例。

更具体地说,给定一组自由形式的文本条目,人们可以想出这样的分组。我知道主题建模是实现此目的的一种方法。我可以指定主题的数量 K,然后将数据输入到我的主题模型(LDA 等)中,该模型将输出 K 个主题,其中每个主题都是该主题中最可能出现的单词的列表。因此,对于这个虚拟示例,主题 1 可能包含诸如“粉丝”、“ Actor ”、“出色表演”之类的单词和短语。

还有其他方法可以进行这种聚类吗?聚类时是否需要考虑顺序评分量表?我该如何考虑这一点?

最佳答案

词嵌入可能会有用。 Here是最近的一个相关斯坦福项目。

关于machine-learning - 对自由格式文本条目进行分类或聚类的好方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28219275/

相关文章:

tensorflow - 如何为 keras 层编写 lambda 函数,用于向量矩阵乘法

python - 如何用python中的另一个值替换pandas数据框中的对象

machine-learning - 如何调优SVM Rank参数?

perl - 如何判断 Perl 代码中的一组括号是作为分组括号还是形成列表?

xml - 如何在指定计数后打破 xsl 中的表格行?

python - 如何设定K的范围并找到其最佳值?

machine-learning - 如何处理 Echo State Networks 中的随机化问题?

c# - 在 C# 中,将列表中的连续日期分组的最佳方法是什么?

python - 如何在tensorflow中实现DBSCAN聚类?

python - 类型错误 : ufunc 'true_divide' output (typecode 'd' ) could not be coerced to provided output parameter (typecode 'q' )