algorithm - 从全文搜索结果中提取小的相关位文本(如 Google 所做的那样)

我在论坛数据库中实现了全文搜索，我想显示以谷歌的方式搜索结果。即使对于很长的 html 页面也只有两三个搜索结果列表中显示的文本行。通常这些是行其中包含搜索词。

如何根据文本本身和搜索词提取几行文本的好算法是什么。我可以想到一些简单的事情，比如在文本中出现的搜索词之前使用一行文本，然后在搜索词出现之后使用一行 - 但这似乎太简单了。

想获得一些方向、想法和见解。

谢谢。

最佳答案

如果您正在寻找比“前行/后行”方法更奇特的东西，摘要器可能会成功。

这是一个基于朴素贝叶斯的系统:http://classifier4j.sourceforge.net/

贝叶斯是许多垃圾邮件过滤器使用的统计系统 - 几年前我研究了贝叶斯摘要器，发现它们在摘要文本方面做得非常好，只要有相当数量的文本需要处理。不过，我实际上还没有尝试过上述库，因此您的情况可能会有所不同。

关于algorithm - 从全文搜索结果中提取小的相关位文本(如 Google 所做的那样)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/954357/

相关文章：

javascript - 自动放置流程图形状的算法