cluster-analysis - 用于对新闻文章进行分组的增量聚类算法?

标签 cluster-analysis

我正在做一些关于如何将文章聚集到“新闻报道”ala Google News 中的研究。

看看这里之前关于这个主题的问题,我经常看到建议简单地从文章中提取一个词向量,如果它们在文章的某些部分(例如标题),则对某些词进行更多加权,然后使用类似 k-means 算法的东西来聚类文章。

但这会导致几个问题:

  • 使用k-means,你如何提前知道k应该是多少?在动态的新闻环境中,您可能有非常多变的故事,并且您不会事先知道文章集代表多少故事。
  • 使用层次聚类算法,您如何决定将哪些集群用作您的故事?您将在树的底部有集群,这些集群只是单个文章,您显然不想使用它们,在树的根部有一个集群,其中包含所有文章,这也是您不想要的...但是你怎么知道应该使用中间的哪些集群来表示故事呢?
  • 最后,无论是 k-means 算法还是分层算法,我读过的大多数文献似乎都假设您有一个要聚类的预设文档集合,并且它一次将它们全部聚类。但是,如果您每隔一段时间就会有新文章出现,那又如何呢?发生什么了?既然多了一篇文章,您是否必须从头开始对所有文章进行聚类?这就是为什么我想知道是否有方法可以让您“添加”文章,而无需从头开始重新聚类。我无法想象这是非常有效的。
  • 最佳答案

    我曾在一家初创公司工作,它的构建正是如此:一个用于新闻文章的增量集群引擎。我们的算法基于本文:Web Document Clustering Using Document Index Graph (http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851)。每天 10,000 篇文章对我们来说效果很好。

    它有两个主要优点:
    1)它是增量的,它解决了您必须处理传入文章流(而不是一次聚类)的问题
    2)它使用基于短语的建模,而不仅仅是“词袋”,这导致了更高的准确性。

    弹出 Google 搜索 http://www.similetrix.com ,他们可能有您要找的东西。

    关于cluster-analysis - 用于对新闻文章进行分组的增量聚类算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3612065/

    相关文章:

    javascript - 在 VisNetwork Igraph 中为顶点添加颜色

    algorithm - 分布式层次聚类

    algorithm - 聚类算法——应用于一组地震数据

    r - 使用 dtwclust 进行动态时间规整距离 (DTW) 的时间序列聚类

    Javascript Worker 丢失属性

    machine-learning - 树状图使用什么数据结构?

    machine-learning - 确定聚类的效果

    r - 如何绘制集群的集群内平方和图?

    python - 如何调整此 DBSCAN 算法 python

    r - 获取 R 中隐马尔可夫模型 (MHMM) 混合的每个簇内的观测值(包 seqHMM)