Java文本和关键字限定

标签 java string algorithm text-analysis keyword-search

我有一个 140 个字符的文本和一组关键字。 我想做的是编写一个算法来帮助我计算我的文本和关键字之间的匹配百分比,以便将文本限定为代表 IT 事件通知。

例如: 文本:“明天将举行关于计算机的每周 Activity 。我们将讨论如何实现算法。这将非常棒。” 关键字:“事件、计算机、数据库、软件、算法”

这里匹配是 3 个词超过 5 个关键词,即 60%

这是否有意义,使用字数并将其与关键字的数量进行比较?这种方法准确吗? 有没有人以前处理过这样的事情?

感谢您的支持。

最佳答案

是的,这绝对有道理。但是,您必须在实践中评估它是否足够精确以达到您的目的。这在很大程度上取决于您要处理的文本。

如果您想尝试更高级但不太复杂的东西:Cosine similarity是比较文本的另一种常用度量。

有大量的文本分类算法和库。 LingPipe是一个不错的 Java 库,可能会对您有所帮助。

如果您对使用库感兴趣,您可以在这个 quora question 的最佳答案中找到一个很好的概述。 .

关于Java文本和关键字限定,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34414079/

相关文章:

java - 之前的注释缺少属性值的值

c - 在使用 fgets() 填充后,如何从我的字符串数组中删除换行符 "\n"?

python - 找到两个字符串之间交集的最佳方法是什么?

algorithm - 是否有任何算法需要专门的功能语言来实现

Java 用多个分隔符分割字符串,其中一些是 2 字符序列

java - 有没有可能用camel监听sql表/字段?

java - 摆脱 Eclipse 中的所有@Override 错误?

c++ format cout with "right"and setw() for a string and float

algorithm - 编程难题 : How to paint a board?

c++ - 将数组的值修改为另一个数组时输出不正确