如何从字符串中高效提取具有相关性的关键词?我的关键字列表是预定义的。例如,在一篇关于 Michelle Obama 的文章中也提到了 Barack Obama,我想用关键字 Michelle Obama
提取 Michelle Obama
和 Barack Obama
获得更高的相关值(Michelle Obama
和 Barack Obama
都出现在我的关键字列表中)。
检查字符串中每个关键字的出现次数似乎效率不高。我的应用程序是用 PHP 开发的,但任何语言都可以,只要我能高效地做到这一点。
我试过 OpenCalais,但它没有检测到我的大部分关键字。是否可以使用 Lucene 提取关键字?
最佳答案
apache lucene 包会适合你。但是如果你有标题和段落,你可以过滤掉停用词,给标题中的词更高的排名,然后匹配它们或者它们在段落中的形式。你可以引用一些文本摘要文章来更好地自己编程。
关于java - 高效的关键字检测/提取。预定义的关键字集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4863396/