python - python中的 bool 检索模型

标签 python python-2.7 nlp information-retrieval

我正在尝试使用 python 中的 bool 模型创建一个查询答案系统。

我尝试使用nltk,但它似乎没有 bool 模型的功能

我有 3 个文档,我希望看看哪些文档与数​​值更相似。

例如 doc1 2.987、doc2 0.876 和 doc3 2.156,因此 doc1 和 doc2 相似

我做了什么:

  • 标记化文档
  • 删除了重复的单词
  • 删除了停用词

我现在拥有的是每个文档的唯一单词列表(基本上是名词、动词、副词和形容词)

现在下一步是什么?

最佳答案

删除停用词可能很有用。您可以查找称为余弦相似度的术语。基本上它可以用于机器学习。它可以用来查找文档之间的相似性。您可以寻找Scikit这是Python中的。如果你想使用它,那是你的选择。但这里有一些教程解释了如何计算余弦相似度。

part-I , part-II , part-III

你也可以看看这个问题

Python: tf-idf-cosine: to find document similarity

希望对你有帮助:)

关于python - python中的 bool 检索模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19179706/

相关文章:

python - 无法将关键字 'items' 解析为字段。选项是 : id, 名称

python - 未绑定(bind)本地错误: local variable referenced before assignment when using list comprehension in python

python - matplotlib.pyplot.draw() 和 matplotlib.pyplot.show() 没有效果

django - 在/admin/配置不当

java - 使用gate处理文档时出现内存不足异常

python - 使用 pymongo 读取和更新 mongodb 文档的最佳方法

python - 如何最好地使用 InstallShield 在 Windows 上安装 Python + 模块

python - 分配变量并在所有值分配后发送到数据库python

python - NoneType' 对象对于 Vectorizer sklearn 不可迭代

java - opennlp.tools.util.Span 类中的 getType()?