Python编程从名称列表中查找相似的名称

标签 python database nlp data-science

我使用的公司名称数据集可能包含不相同的重复项。

该列表可能包含:公司 A 以及公司 A 或公司 A

是否有任何使用 NLP 的 python 脚本可以从数据集中找到相似的名称。

提前致谢

最佳答案

您可以使用 spacy获得 2 个文本之间的相似性。

import spacy

nlp = spacy.load("en_core_web_md")  # make sure to use larger package!
doc1 = nlp("Coca-Cola")
doc2 = nlp("Pepsi")

doc3 = nlp("Company Coca-Cola")
doc4 = nlp("Company Pepsi-Cola")


print(doc1, "<->", doc2, doc1.similarity(doc2))
print(doc3, "<->", doc4, doc3.similarity(doc4))

有以下相似之处

Coca-Cola <-> Pepsi 0.6684898494102074
Company Coca-Cola <-> Company Pepsi-Cola 0.934960639746236

关于Python编程从名称列表中查找相似的名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71864019/

相关文章:

asp.net - 我需要编辑 100,000 多个产品

c# - 使用Visual C#从文本文件语料库中提取名词、名词短语、形容词动词

java - 如何使用斯坦福解析器将文本拆分为句子?

nlp - 在哪里可以找到英语短语列表?

python - 找出所有可能的二进制组合

sql - 选择哪个数据库?

mysql - 如何从 codeigniter 中的数据库表中获取偶数/奇数 ID 号

python - Django 1.4 - django.db.models.FileField.save(filename, file, save=True) 产生非 ascii 文件名错误

python - 在日期中添加月、日、年

python - 如何通过远程文件系统进行非阻塞读/写