python - 两组标记之间的相似度得分

标签 python machine-learning

我检索到了一个人的一组网址。我想尝试将每个网址分类为与该人有关(他/她的 linkedin 个人资料或提及该人的博客或新闻文章)或与该人无关。

我正在尝试应用一种基本方法,对每个网页进行标记并与所有其他网页进行比较,以查看每个文档之间有多少相似的单词(不包括停用词),然后将最相似的网页作为正匹配。

我想知道是否有一种机器学习方法可以使我的任务更轻松、更准确。本质上,我想比较两个网页之间的网页内容(标记为单词),并根据其内容确定它们的相似程度的分数。

最佳答案

如果您熟悉 Python,这个 NLP 分类器应该会对您有很大帮助: http://www.nltk.org/api/nltk.classify.html#module-nltk.classify

对于无监督聚类,您可以使用以下命令: http://www.nltk.org/api/nltk.cluster.html#module-nltk.cluster

如果您只是寻找相似性分数,那么指标模块应该很有用: http://www.nltk.org/api/nltk.metrics.html#module-nltk.metrics

NLP-toolkit 已经给出了答案,只需浏览模块即可找到您想要的内容,而无需手动实现。

关于python - 两组标记之间的相似度得分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22946117/

相关文章:

python - 如何对电子邮件回复发表评论?

python - 将 python 线程结果合并到一个列表中

python - 我们如何使用 scikit-learn 了解选定和省略的功能(列)名称(标题)

python - Keras 神经网络为每个输入输出相同的结果

apache-spark - 如何使用Spark Kmeans模型获取Kmeans集群数据

python - 无法将一个标题下的值转移到另一个标题下

python - 使用 C API 访问 NumPy 数组的 View

python - 如何在仍然显示摄像机记录的同时根据训练有素的模型检查图像?

algorithm - 在 Weka 中堆叠

python - Keras ImageDataGenerator 设置均值和标准差