我在 https://www.kdnuggets.com/2018/08/topic-modeling-lsa-plsa-lda-lda2vec.html 找到了附图。它显示了主题建模结果的可视化。使用哪种工具来创建此类可视化?关于如何创建它有任何指导吗?
最佳答案
他们从经过训练的主题模型中提取了一些信息,并将其重新塑造成图形(网络)形式。看起来他们已经将模型中每个主题中关联性最强的单词作为图中的一组节点,并且还为每个单独的主题添加了一个节点,并根据他们认为的主题本身给了它一个标签关于。
我的猜测是,术语节点和主题节点之间的边(连接)由模型开发的术语到主题分数进行加权。他们可能已经过滤掉了低分,这就是为什么术语和一两个主题之间只有边缘的原因(而在主题建模中,每个术语都有一些与每个主题相关的分数)。
为了可视化图表,他们似乎使用了 Gephi,这是一个开源图表可视化工具。他们可能使用了 Force Atlas 2 布局来分布节点,按模块类(可以在 gephi 中计算)对节点进行着色,并手动将主题节点的大小设置为大于术语节点。
就实际生成这样的东西而言,可以使用 networkx 包来创建图形表示。有很多关于如何使用 networkx 的教程。
创建包含我上面描述的结构的networkx图形对象后,您可以将其导出为.gexf
格式,该格式可以由gephi打开,以便您进行可视化的最后阶段。同样,应该提供在线教程来在 Gephi 中执行此类操作。
关于python-3.x - 如何创建附加主题建模可视化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59260013/