python - 如何使用带有 gensim 的 TF-IDF 或 LSA 计算单词相似度?

标签 python nlp tf-idf gensim lsa

我知道 gensim 中的 word2vec 可以计算单词之间的相似度。但现在我想使用带有 gensim 的 TF-IDF 或 LSA 来计算单词相似度。怎么做?

注意:使用 LSA 和 gensim 计算文档相似度很容易:http://radimrehurek.com/gensim/wiki.html

最佳答案

TF-IDF 是一种加权方案,因此它不能替代 LSA。

将您的问题想象成一个由“n”个文档组成的“m”个术语的矩阵。矩阵的每个条目 Aij 代表文档“j”中术语“i”的权重。这是您使用 TF-IDF 的地方。知道要在矩阵的每个单元格中放入什么。

然后,如果适合您的应用,您可以使用 LSA 减小矩阵的维度。

我希望这可以解决一些问题。

关于python - 如何使用带有 gensim 的 TF-IDF 或 LSA 计算单词相似度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35981178/

相关文章:

python - 从 subprocess.Popen.stdout 读取多行

python - 为什么我的 xlabel 不显示? (它不会被切断)

python - 如何加快 Spacy 的 nlp 调用?

performance - 一种快速准确的文本文档相似度比较方法

tensorflow - 将字数向量逆变换为原始文档

python - 次线性 TF 变换导致 sklearn 中的 ValueError

尝试使用 asyncio 子进程调用 shell 命令时,Python 引发 NotImplementedError

python - 检查字符串是否不是 isdigit() 的更短方法

python - 在 SpaCy 中使用 PhraseMatcher 查找多种匹配类型

python - with.ai 中的图像上传功能,无需使用 facebook Messenger