我正在做一些关于如何将文章聚集到“新闻报道”ala Google News 中的研究。
看看这里之前关于这个主题的问题,我经常看到建议简单地从文章中提取一个词向量,如果它们在文章的某些部分(例如标题),则对某些词进行更多加权,然后使用类似 k-means 算法的东西来聚类文章。
但这会导致几个问题:
最佳答案
我曾在一家初创公司工作,它的构建正是如此:一个用于新闻文章的增量集群引擎。我们的算法基于本文:Web Document Clustering Using Document Index Graph (http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851)。每天 10,000 篇文章对我们来说效果很好。
它有两个主要优点:
1)它是增量的,它解决了您必须处理传入文章流(而不是一次聚类)的问题
2)它使用基于短语的建模,而不仅仅是“词袋”,这导致了更高的准确性。
弹出 Google 搜索 http://www.similetrix.com ,他们可能有您要找的东西。
关于cluster-analysis - 用于对新闻文章进行分组的增量聚类算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3612065/