python - 两组标记之间的相似度得分

我检索到了一个人的一组网址。我想尝试将每个网址分类为与该人有关(他/她的 linkedin 个人资料或提及该人的博客或新闻文章)或与该人无关。

我正在尝试应用一种基本方法，对每个网页进行标记并与所有其他网页进行比较，以查看每个文档之间有多少相似的单词(不包括停用词)，然后将最相似的网页作为正匹配。

我想知道是否有一种机器学习方法可以使我的任务更轻松、更准确。本质上，我想比较两个网页之间的网页内容(标记为单词)，并根据其内容确定它们的相似程度的分数。

最佳答案

如果您熟悉 Python，这个 NLP 分类器应该会对您有很大帮助: http://www.nltk.org/api/nltk.classify.html#module-nltk.classify

如果您只是寻找相似性分数，那么指标模块应该很有用: http://www.nltk.org/api/nltk.metrics.html#module-nltk.metrics

NLP-toolkit 已经给出了答案，只需浏览模块即可找到您想要的内容，而无需手动实现。

关于python - 两组标记之间的相似度得分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22946117/

相关文章：

python - 如何对电子邮件回复发表评论？