我正在使用 Gensim 进行一些主题建模,我已经到了使用 LSI 和 tf-idf 模型进行相似性查询的地步。我取回了一组 ID 和相似之处,例如。 (299501,0.64505910873413086)
。
如何获取与 ID 相关的文本文档,在本例中为 299501?
我查看了语料库、字典、索引和模型的文档,但似乎找不到。
最佳答案
遗憾的是,据我所知,您必须从分析的一开始就知道您希望通过 ID 检索文档。这意味着您需要在 ID 和原始文档之间创建自己的映射,并确保 gensim
使用的 ID 在整个过程中得到保留。事实上,我不认为 gensim
会保留这样的映射。
我肯定是错的,事实上,如果有人告诉我有更简单的方法,我会很高兴,但我花了很多时间试图避免在维基百科语料库上重新运行一个巨大的 LSI 模型,但无济于事。最后,我不得不携带一个 ID 列表和相关文档,以便我可以使用 gensim
的输出。
关于python - 在 Gensim 中通过 ID 检索文档的字符串版本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28488714/