好的,我正在构建一个搜索引擎。搜索模块能够提取相关单词。现在我有一个单词列表及其在原始源文本中的偏移量。使用编辑距离来计算查询字符串和源文本部分之间的差异(从给定单词的偏移量开始,直到查询字符串的长度)是一个坏主意吗)。问我在想这会帮助我更快地生成摘录。
它不需要邻近搜索等,只需要普通的“ANY”和“ALL”模式。顺便说一句,结果已经排序,所以我现在只研究摘录生成。谢谢。
最佳答案
构建从文本到包含的单词(及其计数)的一对多映射。这个“词袋” vector 可以用于许多不同的技术。
关于c - 使用编辑距离生成摘录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1142777/