cluster-analysis - 用于对新闻文章进行分组的增量聚类算法？

我正在做一些关于如何将文章聚集到“新闻报道”ala Google News 中的研究。

看看这里之前关于这个主题的问题，我经常看到建议简单地从文章中提取一个词向量，如果它们在文章的某些部分(例如标题)，则对某些词进行更多加权，然后使用类似 k-means 算法的东西来聚类文章。

但这会导致几个问题:

使用k-means，你如何提前知道k应该是多少？在动态的新闻环境中，您可能有非常多变的故事，并且您不会事先知道文章集代表多少故事。

使用层次聚类算法，您如何决定将哪些集群用作您的故事？您将在树的底部有集群，这些集群只是单个文章，您显然不想使用它们，在树的根部有一个集群，其中包含所有文章，这也是您不想要的...但是你怎么知道应该使用中间的哪些集群来表示故事呢？

最后，无论是 k-means 算法还是分层算法，我读过的大多数文献似乎都假设您有一个要聚类的预设文档集合，并且它一次将它们全部聚类。但是，如果您每隔一段时间就会有新文章出现，那又如何呢？发生什么了？既然多了一篇文章，您是否必须从头开始对所有文章进行聚类？这就是为什么我想知道是否有方法可以让您“添加”文章，而无需从头开始重新聚类。我无法想象这是非常有效的。

最佳答案

我曾在一家初创公司工作，它的构建正是如此:一个用于新闻文章的增量集群引擎。我们的算法基于本文:Web Document Clustering Using Document Index Graph (http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851)。每天 10,000 篇文章对我们来说效果很好。

它有两个主要优点:
1)它是增量的，它解决了您必须处理传入文章流(而不是一次聚类)的问题
2)它使用基于短语的建模，而不仅仅是“词袋”，这导致了更高的准确性。

弹出 Google 搜索 http://www.similetrix.com ，他们可能有您要找的东西。

关于cluster-analysis - 用于对新闻文章进行分组的增量聚类算法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3612065/

cluster-analysis - 用于对新闻文章进行分组的增量聚类算法？

上一篇：asp.net - 有没有办法让VS2010发布向导在发布站点时复制App_offline.htm？

下一篇：java - NoClassDefFoundError : kafka/api/OffsetRequest