python - 基于标签的重叠聚类(软聚类)

标签 python algorithm tags cluster-analysis

我正在寻找一种算法,根据主题标签对 Twitter 提要进行聚类,其中主题标签不会严格分配给一个集群。

非常简单的例子:

  • 饲料 1:#food #vegetable
  • 饲料 2:#food #vegetable
  • 饲料 3:#food #fruit
  • 饲料 4:#food #fruit

我想得到的结果是:

  • 第 1 组:#food #vegetable
  • 第 2 组:#food #fruit

当然,实际上我可以拥有数十万个提要和数千个可能的主题标签。

我在 scikit-learn 中尝试使用相似矩阵的各种方法(k-均值、谱聚类、凝聚聚类),例如:

               #food | #vegetable | #fruit |
#food            1   |    1/2     |   1/2  |
#vegetable      1/2  |     1      |    0   |
#fruit          1/2  |     0      |    1   |

所有这些算法都有效,但它们会创建不相交的集群(每个主题标签只属于一个集群)。

最佳答案

  • 您可以将您的主题标签视为一种描述,并在其上运行 LDA 算法。它将创建包含多个主题标签的主题,并且每个主题标签都可以在多个主题中找到。
  • 您可以根据主题标签创建加权图。您所有的主题标签都是该图的节点,当主题标 checkout 现在同一提要中时,边缘会增加。从此图中,您可以使用允许社区重叠的多个社区检测算法(例如 k-click)

关于python - 基于标签的重叠聚类(软聚类),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58181300/

相关文章:

C# 高级标签解析

filter - 在 Liquid 标签中使用过滤器

python - Tensorflow 训练期间 GPU 使用率非常低

python - SynapsePay 和 Django 用户问题的冲突实例

Python 程序在 Linux 中占用内存

performance - 确定算法的运行时间

javascript - 芯片标签无法使用 Javascript 功能删除

python - Qt C++ - 如何成功地将数据传递给子进程?

algorithm - java- Big O Notation- MlogN 和 MlogM 之间的区别?

algorithm - 识别重复序列中的间隙