python - 基于标签的重叠聚类(软聚类)

标签 python algorithm tags cluster-analysis

我正在寻找一种算法，根据主题标签对 Twitter 提要进行聚类，其中主题标签不会严格分配给一个集群。

非常简单的例子:

饲料 1:#food #vegetable
饲料 2:#food #vegetable
饲料 3:#food #fruit
饲料 4:#food #fruit

我想得到的结果是:

第 1 组:#food #vegetable
第 2 组:#food #fruit

当然，实际上我可以拥有数十万个提要和数千个可能的主题标签。

我在 scikit-learn 中尝试使用相似矩阵的各种方法(k-均值、谱聚类、凝聚聚类)，例如:

               #food | #vegetable | #fruit |
#food            1   |    1/2     |   1/2  |
#vegetable      1/2  |     1      |    0   |
#fruit          1/2  |     0      |    1   |

所有这些算法都有效，但它们会创建不相交的集群(每个主题标签只属于一个集群)。

最佳答案

您可以将您的主题标签视为一种描述，并在其上运行 LDA 算法。它将创建包含多个主题标签的主题，并且每个主题标签都可以在多个主题中找到。
您可以根据主题标签创建加权图。您所有的主题标签都是该图的节点，当主题标 checkout 现在同一提要中时，边缘会增加。从此图中，您可以使用允许社区重叠的多个社区检测算法(例如 k-click)

关于python - 基于标签的重叠聚类(软聚类)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58181300/

上一篇：algorithm - 将 "parallelism"引入一个任务调度问题

下一篇：algorithm - 如何计算和存储 sqrt(n) 最多 10^6 位小数的数字？

相关文章：

C# 高级标签解析

filter - 在 Liquid 标签中使用过滤器

python - Tensorflow 训练期间 GPU 使用率非常低

python - SynapsePay 和 Django 用户问题的冲突实例

Python 程序在 Linux 中占用内存

performance - 确定算法的运行时间

javascript - 芯片标签无法使用 Javascript 功能删除

python - Qt C++ - 如何成功地将数据传递给子进程？

algorithm - java- Big O Notation- MlogN 和 MlogM 之间的区别？

algorithm - 识别重复序列中的间隙