search - 推荐一个简单的词袋搜索引擎?

标签 search full-text-search tags tagging

对小型、轻量级的词袋搜索引擎有什么建议吗?

我有一组“文档”,每个基本上都是一小包任意单词。
给定一个新文档,我需要获取“相似”文档的列表以及它们可能有多相似的权重。文件可能很小……最多几段。

  • 词干会很好,但不是非常需要。
  • 不需要词网的词扩展。
  • 首选开源或免费软件,因为这是一个原型(prototype),而不是一个完整的项目。
  • 首选unix/linux平台。

  • 我会将它用作子组件,并且只希望向它提供带有 ID 的文档,然后会搜索与我目前拥有的文档“相似”的文档。

    最佳答案

    Whoosh是一个纯 Python(没有 C,没有外部数据库)索引器/搜索引擎。查看 documentation了解更多信息。它确实支持词干。

    我在一个 mediawiki 实例的 XML 转储上进行了尝试,它似乎工作得很好!

    关于search - 推荐一个简单的词袋搜索引擎?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1457306/

    相关文章:

    java - 使用 JAXB 编码空值

    c# - 循环获取 PDF 文件

    javascript - Algolia 搜索 : access results onclick

    Postgresql 全文搜索分词器

    php - 使用 mysql 和 php 查找短语

    MySQL 全文搜索表意(亚洲)字符

    javascript - 来自输入标签的 Html5 视频源

    jquery - 我可以更改 <link> 标签属性值吗?

    database - 搜索索引与数据库索引

    c - 在 C 中搜索、排序和打印排序的二维整数数组