java - 检测由某些词组成的段落的可能性

标签 java machine-learning data-mining

<分区>

这是家庭作业。我不一定要寻找确切的解决方案,而是要寻找开放的答案和可能的策略。我有一个段落集和一个单词集。我需要检测这些段落中哪些可能包含某些关键字并输出这些段落的标题

蛮力方法是进行简单的字符串匹配并检查段落是否包含所需的字符串,但我认为这根本不是一个很好的解决方案。此外,家庭作业要求我确定该段落是否可能由关键字组成,这实质上意味着将涉及某种机器学习/数据挖掘。

非常重视您的所有意见,非常感谢!

P.S:如果重要的话,我将使用 Java 编程语言来解决这个问题。

最佳答案

我不确定我是否正确理解了您的任务,但您可以使用布隆过滤器。

布隆过滤器是一种概率数据结构:它告诉我们该元素要么肯定不在集合中,要么可能在集合中。

guava library page上查看解释或 play with a simple implementation看看这是如何工作的。

关于java - 检测由某些词组成的段落的可能性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11851500/

相关文章:

python - 是否可以在 python 的 for 循环中自动创建变量?

python - 有没有既可以在单词级别也可以在句子级别工作的分类器?

java - 如何从文件加载AWS凭证?

Java 6 ScriptEngine 和 JSON.parse 问题

machine-learning - 如何根据另一个向量将一个矩阵拆分为多个矩阵

sql - 在数据库中存储现实世界 "events"的最佳方式?

java - 将CURE聚类算法加入WEKA

java - 如何为以下示例更好地创建 JSON

java - 错误: incompatible types: int[][] cannot be converted to int

显示句子中单词上下文的 api