java - 高效的关键字检测/提取。预定义的关键字集

标签 java php text-analysis semantic-analysis

如何从字符串中高效提取具有相关性的关键词?我的关键字列表是预定义的。例如,在一篇关于 Michelle Obama 的文章中也提到了 Barack Obama,我想用关键字 Michelle Obama 提取 Michelle ObamaBarack Obama获得更高的相关值(Michelle ObamaBarack Obama 都出现在我的关键字列表中)。

检查字符串中每个关键字的出现次数似乎效率不高。我的应用程序是用 PHP 开发的,但任何语言都可以,只要我能高效地做到这一点。

我试过 OpenCalais,但它没有检测到我的大部分关键字。是否可以使用 Lucene 提取关键字?

最佳答案

apache lucene 包会适合你。但是如果你有标题和段落,你可以过滤掉停用词,给标题中的词更高的排名,然后匹配它们或者它们在段落中的形式。你可以引用一些文本摘要文章来更好地自己编程。

关于java - 高效的关键字检测/提取。预定义的关键字集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4863396/

相关文章:

php - 所有 php 文件中都添加了奇怪的代码

php - 使用 PHP 和 MySql 中的印地语 (Unicode) 内容将数据导出到 Excel

Python降序字数

Java:在此示例中防止死锁

java - Cassandra 连接池

java - 通过位置服务警报打开位置后等待位置打开

java - 如何确定给定 JDBC 连接的数据库类型?

php - 如何使用 Laravel Eloquent 动态填充复选框

python - 将稀疏矩阵从 Python 传输到 R

nlp - SimpleNLG - 使用 "placeholders"创建一个由 2 部分组成的句子