algorithm - 从全文搜索结果中提取小的相关位文本(如 Google 所做的那样)

标签 algorithm search full-text-search nlp data-mining

我在论坛数据库中实现了全文搜索,我想显示 以谷歌的方式搜索结果。即使对于很长的 html 页面也只有两三个 搜索结果列表中显示的文本行。通常这些是行 其中包含搜索词。

如何根据文本本身和搜索词提取几行文本的好算法是什么。我可以想到一些简单的事情,比如在文本中出现的搜索词之前使用一行文本,然后在搜索词出现之后使用一行 - 但这似乎太简单了。

想获得一些方向、想法和见解。

谢谢。

最佳答案

如果您正在寻找比“前行/后行”方法更奇特的东西,摘要器可能会成功。

这是一个基于朴素贝叶斯的系统:http://classifier4j.sourceforge.net/

贝叶斯是许多垃圾邮件过滤器使用的统计系统 - 几年前我研究了贝叶斯摘要器,发现它们在摘要文本方面做得非常好,只要有相当数量的文本需要处理。不过,我实际上还没有尝试过上述库,因此您的情况可能会有所不同。

关于algorithm - 从全文搜索结果中提取小的相关位文本(如 Google 所做的那样),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/954357/

相关文章:

javascript - 自动放置流程图形状的算法

algorithm - 加快搜索最佳二进制匹配数

search - 使用 MATCH AGAINST 搜索 MySQL 表时出现问题

php - 对全文性能进行基准测试——如何进行

c - C中的字数统计,学习更多CS

algorithm - 计算简单有向图的两个给定顶点之间的所有边不相交路径

algorithm - 循环中的大 O 复杂性

c - 查找元素的最大出现次数,数组语法

mysql - 与 Solr 相比,MyISAM 在 Django 搜索方面的扩展性如何?

java - 在 Activity 负载上实现搜索栏