我有一个 140 个字符的文本和一组关键字。 我想做的是编写一个算法来帮助我计算我的文本和关键字之间的匹配百分比,以便将文本限定为代表 IT 事件通知。
例如: 文本:“明天将举行关于计算机的每周 Activity 。我们将讨论如何实现算法。这将非常棒。” 关键字:“事件、计算机、数据库、软件、算法”
这里匹配是 3 个词超过 5 个关键词,即 60%
这是否有意义,使用字数并将其与关键字的数量进行比较?这种方法准确吗? 有没有人以前处理过这样的事情?
感谢您的支持。
最佳答案
是的,这绝对有道理。但是,您必须在实践中评估它是否足够精确以达到您的目的。这在很大程度上取决于您要处理的文本。
如果您想尝试更高级但不太复杂的东西:Cosine similarity是比较文本的另一种常用度量。
有大量的文本分类算法和库。 LingPipe是一个不错的 Java 库,可能会对您有所帮助。
如果您对使用库感兴趣,您可以在这个 quora question 的最佳答案中找到一个很好的概述。 .
关于Java文本和关键字限定,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34414079/