我想计算一些给定的单词或短语在文本中出现的次数,但我想使用一些字符串相似度算法。
每个词或表达都有一个值,所以我会根据找到的词数等设置文本的相关性
我猜想 Java 的 String
类不能提供这个。我需要为要查找的每个单词或表达式迭代所有文本吗?
是否有用于文本处理的库?
示例:查找包含“videogame”、“i have a videogame”等类似内容的文本,评估类似的表达方式。我想如果我对每个需要评估的单词或表达式进行迭代,我找不到相似的单词并且速度会更慢。
最佳答案
but I want use some String similarity algorithms.
看看Lucene .允许您索引一些文本并使用相似性算法查找作品。我认为您想拆分每个单词并使用 lucene 对它们进行索引。然后对于您感兴趣的所有单词,您可以搜索索引。您可以执行诸如 Automobile~
之类的操作,这将执行模糊搜索。这是一个粗略的算法:
for each word in STRING.split(' ')
index word
for each word in your list
search for word and look for number of occurrences
关于java - 我如何计算文本中的单词和表达?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6848869/