我有不同的文档,每个文档中都有主题标签列表。我想将它们分组在最相关的主题标签下(该标签将出现在文档本身中)。 例如:如果有#Eco、# EcoFriendly # GoingGreen - 我想将所有这些都分组在最相关和最具代表性的标签下(比如#Eco)。我应该如何解决这个问题以及我应该考虑哪些技术和算法?
最佳答案
我将创建文档主题标签的二分图并在二分图上使用聚类: http://www.cs.utexas.edu/users/inderjit/public_papers/kdd_bipartite.pdf
这样我就不会使用文档的内容,而只是对主题标签进行聚类,这就是您想要的。
关于twitter - 根据相似性对标签进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24031279/