我有一组由用户输入的 N 个项目的评分,以及他们为该项目选择该评分的原因。评级按顺序排列(-2、-1、0、+1、+2)。 我想对这些原因进行有意义的分组。例如,假设用户正在对电影进行评分,评分背后的原因可能分为 3 大类:1)。 “他们是 Actor 的 super 粉丝”,2)。 “惊人的故事情节”,4)。 “缺乏原创性”。这只是一个虚拟示例。
更具体地说,给定一组自由形式的文本条目,人们可以想出这样的分组。我知道主题建模是实现此目的的一种方法。我可以指定主题的数量 K,然后将数据输入到我的主题模型(LDA 等)中,该模型将输出 K 个主题,其中每个主题都是该主题中最可能出现的单词的列表。因此,对于这个虚拟示例,主题 1 可能包含诸如“粉丝”、“ Actor ”、“出色表演”之类的单词和短语。
还有其他方法可以进行这种聚类吗?聚类时是否需要考虑顺序评分量表?我该如何考虑这一点?
最佳答案
词嵌入可能会有用。 Here是最近的一个相关斯坦福项目。
关于machine-learning - 对自由格式文本条目进行分类或聚类的好方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28219275/