python-3.x - 如何创建附加主题建模可视化?

标签 python-3.x nlp visualization topic-modeling

我在 https://www.kdnuggets.com/2018/08/topic-modeling-lsa-plsa-lda-lda2vec.html 找到了附图。它显示了主题建模结果的可视化。使用哪种工具来创建此类可视化?关于如何创建它有任何指导吗?

topic modeling vizualization

最佳答案

他们从经过训练的主题模型中提取了一些信息,并将其重新塑造成图形(网络)形式。看起来他们已经将模型中每个主题中关联性最强的单词作为图中的一组节点,并且还为每个单独的主题添加了一个节点,并根据他们认为的主题本身给了它一个标签关于。

我的猜测是,术语节点和主题节点之间的边(连接)由模型开发的术语到主题分数进行加权。他们可能已经过滤掉了低分,这就是为什么术语和一两个主题之间只有边缘的原因(而在主题建模中,每个术语都有一些与每个主题相关的分数)。

为了可视化图表,他们似乎使用了 Gephi,这是一个开源图表可视化工具。他们可能使用了 Force Atlas 2 布局来分布节点,按模块类(可以在 gephi 中计算)对节点进行着色,并手动将主题节点的大小设置为大于术语节点。

就实际生成这样的东西而言,可以使用 networkx 包来创建图形表示。有很多关于如何使用 networkx 的教程。

创建包含我上面描述的结构的networkx图形对象后,您可以将其导出为.gexf格式,该格式可以由gephi打开,以便您进行可视化的最后阶段。同样,应该提供在线教程来在 Gephi 中执行此类操作。

关于python-3.x - 如何创建附加主题建模可视化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59260013/

相关文章:

pandas - 每个列数据框的分布概率,在一个图中

python - 包装标签时窗口会缩小,即使文本框更大

python - 使用 beautifulsoup 从 <script> 标签中获取数据

python - 使用 keras tokenizer 处理不在训练集中的新词

nlp - WordNet 中的 "derivationally related forms"是什么?

javascript - 如何为每个 x 值绘制具有多个 y 值的散点图?

python - scikit-bio 从 gff3 文件中提取基因组特征

从 YAML 传递数据连接 MYSQL 数据库时,Python 抛出 'ProgrammingError: 1045'

c++ - C++ 中的语言转换器(从日语到英语)

java - 有哪些好的用户数据统计可视化框架/库?