我想计算关键字与简短描述文本的相关性。就效率和易于实现而言,最好的方法是什么?我在使用 C++?
最佳答案
简单的解决方案:计算单词在文本中的出现次数。
不过,要做好工作是谷歌等公司多年来一直致力于解决的难题。如果可能的话,您可能想看看 using their technology
要扩展,请尝试以下操作:
- 使用字典(例如 WordNet 将所有同义词替换为常用词
- 使用 Levenshtein distance 检测相似词
到目前为止,这仍然只能帮助您。您需要执行一些自然语言处理才能真正理解描述的内容,以区分包含相同次数的关键字的多个文本。
关于计算关键字与短文本(50 - 100 字)相关性的算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4546193/