python - 在 Gensim 中通过 ID 检索文档的字符串版本

标签 python gensim

我正在使用 Gensim 进行一些主题建模,我已经到了使用 LSI 和 tf-idf 模型进行相似性查询的地步。我取回了一组 ID 和相似之处,例如。 (299501,0.64505910873413086)

如何获取与 ID 相关的文本文档,在本例中为 299501?

我查看了语料库、字典、索引和模型的文档,但似乎找不到。

最佳答案

遗憾的是,据我所知,您必须从分析的一开始就知道您希望通过 ID 检索文档。这意味着您需要在 ID 和原始文档之间创建自己的映射,并确保 gensim 使用的 ID 在整个过程中得到保留。事实上,我不认为 gensim 会保留这样的映射。

我肯定是错的,事实上,如果有人告诉我有更简单的方法,我会很高兴,但我花了很多时间试图避免在维基百科语料库上重新运行一个巨大的 LSI 模型,但无济于事。最后,我不得不携带一个 ID 列表和相关文档,以便我可以使用 gensim 的输出。

关于python - 在 Gensim 中通过 ID 检索文档的字符串版本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28488714/

相关文章:

python - 如何在gensim中打印出LDA主题中单词的完整分布?

python - Gensim 中的 FastText

Python Gensim 如何通过多处理使 WMD 相似性运行得更快

python psycopg2查询错误时间戳没有时区

python - python 中的并行/多重处理

python - 使用月份列过滤 pandas 数据框以保留最近的 n 个月

python - Django - 无效的过滤漂白剂

python - Jupyter notebook 无法识别 Gensim 库

python - 简短短语的快速文本表示,但不适用于包含短短语的较长短语

Python 合并重复元素