c - 使用编辑距离生成摘录

标签 c search-engine

好的,我正在构建一个搜索引擎。搜索模块能够提取相关单词。现在我有一个单词列表及其在原始源文本中的偏移量。使用编辑距离来计算查询字符串和源文本部分之间的差异(从给定单词的偏移量开始,直到查询字符串的长度)是一个坏主意吗)。问我在想这会帮助我更快地生成摘录。

它不需要邻近搜索等,只需要普通的“ANY”和“ALL”模式。顺便说一句,结果已经排序,所以我现在只研究摘录生成。谢谢。

最佳答案

构建从文本到包含的单词(及其计数)的一对多映射。这个“词袋” vector 可以用于许多不同的技术。

关于c - 使用编辑距离生成摘录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1142777/

相关文章:

c - 为什么 scanf 函数会自动获取先前的 '\n' 值以及如何逃脱此事件?

c# - 使用 Linq To SQL 进行简单搜索

java - 使用lucene进行数据库搜索

javascript - 如何使用 Google Chrome 自定义搜索引擎进行多参数查询?

php - 我如何获得这种闪电般的快速搜索?

dprintf 的跨平台兼容性

c - 如何将链表的头节点地址存储在文件中并稍后检索

c - 这个语法在 C 中是什么意思?变量 = (arg0 + arg1 == arg2 ? 0x1 : 0x0) & 0xff;

c++ - 使用 Ptrace 检索系统调用,在第一个调用后停止

java - 查询生成器 - 不能/不应该