我正在尝试使用 python 中的 bool 模型创建一个查询答案系统。
我尝试使用nltk,但它似乎没有 bool 模型的功能
我有 3 个文档,我希望看看哪些文档与数值更相似。
例如 doc1 2.987、doc2 0.876 和 doc3 2.156,因此 doc1 和 doc2 相似
我做了什么:
- 标记化文档
- 删除了重复的单词
- 删除了停用词
我现在拥有的是每个文档的唯一单词列表(基本上是名词、动词、副词和形容词)
现在下一步是什么?
最佳答案
删除停用词可能很有用。您可以查找称为余弦相似度的术语。基本上它可以用于机器学习。它可以用来查找文档之间的相似性。您可以寻找Scikit这是Python中的。如果你想使用它,那是你的选择。但这里有一些教程解释了如何计算余弦相似度。
你也可以看看这个问题
Python: tf-idf-cosine: to find document similarity
希望对你有帮助:)
关于python - python中的 bool 检索模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19179706/