对小型、轻量级的词袋搜索引擎有什么建议吗?
我有一组“文档”,每个基本上都是一小包任意单词。
给定一个新文档,我需要获取“相似”文档的列表以及它们可能有多相似的权重。文件可能很小……最多几段。
我会将它用作子组件,并且只希望向它提供带有 ID 的文档,然后会搜索与我目前拥有的文档“相似”的文档。
最佳答案
Whoosh是一个纯 Python(没有 C,没有外部数据库)索引器/搜索引擎。查看 documentation了解更多信息。它确实支持词干。
我在一个 mediawiki 实例的 XML 转储上进行了尝试,它似乎工作得很好!
关于search - 推荐一个简单的词袋搜索引擎?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1457306/