java - 我如何计算文本中的单词和表达?

标签 java string algorithm

我想计算一些给定的单词或短语在文本中出现的次数,但我想使用一些字符串相似度算法。

每个词或表达都有一个值,所以我会根据找到的词数等设置文本的相关性

我猜想 Java 的 String 类不能提供这个。我需要为要查找的每个单词或表达式迭代所有文本吗?

是否有用于文本处理的库?

示例:查找包含“videogame”、“i have a videogame”等类似内容的文本,评估类似的表达方式。我想如果我对每个需要评估的单词或表达式进行迭代,我找不到相似的单词并且速度会更慢。

最佳答案

but I want use some String similarity algorithms.

看看Lucene .允许您索引一些文本并使用相似性算法查找作品。我认为您想拆分每个单词并使用 lucene 对它们进行索引。然后对于您感兴趣的所有单词,您可以搜索索引。您可以执行诸如 Automobile~ 之类的操作,这将执行模糊搜索。这是一个粗略的算法:

for each word in STRING.split(' ')
  index word

for each word in your list
  search for word and look for number of occurrences

关于java - 我如何计算文本中的单词和表达?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6848869/

相关文章:

java - 如何正确使用 Lombok @Data 和接口(interface)

java - 在 java 中检索客户端 IP 地址时获取 request.getHeader ("X-FORWARDED-FOR"的空值?

php - 正确格式化 php 输出

控制加速度直到到达某个位置的算法

algorithm - 以下场景的人工智能算法

algorithm - 反馈和 HRRN 调度算法?

java - 如何使用 Hibernate 插入引用 mysql DB 中其他字段的外键?

java - 在同一项目中使用内存身份验证和数据库身份验证

打印动态字符串数组时崩溃

c++ - wcout与cout、wstring与string的混淆