我在论坛数据库中实现了全文搜索,我想显示 以谷歌的方式搜索结果。即使对于很长的 html 页面也只有两三个 搜索结果列表中显示的文本行。通常这些是行 其中包含搜索词。
如何根据文本本身和搜索词提取几行文本的好算法是什么。我可以想到一些简单的事情,比如在文本中出现的搜索词之前使用一行文本,然后在搜索词出现之后使用一行 - 但这似乎太简单了。
想获得一些方向、想法和见解。
谢谢。
最佳答案
如果您正在寻找比“前行/后行”方法更奇特的东西,摘要器可能会成功。
这是一个基于朴素贝叶斯的系统:http://classifier4j.sourceforge.net/
贝叶斯是许多垃圾邮件过滤器使用的统计系统 - 几年前我研究了贝叶斯摘要器,发现它们在摘要文本方面做得非常好,只要有相当数量的文本需要处理。不过,我实际上还没有尝试过上述库,因此您的情况可能会有所不同。
关于algorithm - 从全文搜索结果中提取小的相关位文本(如 Google 所做的那样),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/954357/