<分区>
这是家庭作业。我不一定要寻找确切的解决方案,而是要寻找开放的答案和可能的策略。我有一个段落集和一个单词集。我需要检测这些段落中哪些可能包含某些关键字并输出这些段落的标题
蛮力方法是进行简单的字符串匹配并检查段落是否包含所需的字符串,但我认为这根本不是一个很好的解决方案。此外,家庭作业要求我确定该段落是否可能由关键字组成,这实质上意味着将涉及某种机器学习/数据挖掘。
非常重视您的所有意见,非常感谢!
P.S:如果重要的话,我将使用 Java 编程语言来解决这个问题。
<分区>
这是家庭作业。我不一定要寻找确切的解决方案,而是要寻找开放的答案和可能的策略。我有一个段落集和一个单词集。我需要检测这些段落中哪些可能包含某些关键字并输出这些段落的标题
蛮力方法是进行简单的字符串匹配并检查段落是否包含所需的字符串,但我认为这根本不是一个很好的解决方案。此外,家庭作业要求我确定该段落是否可能由关键字组成,这实质上意味着将涉及某种机器学习/数据挖掘。
非常重视您的所有意见,非常感谢!
P.S:如果重要的话,我将使用 Java 编程语言来解决这个问题。
最佳答案
我不确定我是否正确理解了您的任务,但您可以使用布隆过滤器。
布隆过滤器是一种概率数据结构:它告诉我们该元素要么肯定不在集合中,要么可能在集合中。
在guava library page上查看解释或 play with a simple implementation看看这是如何工作的。
关于java - 检测由某些词组成的段落的可能性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11851500/