我使用的公司名称数据集可能包含不相同的重复项。
该列表可能包含:公司 A 以及公司 A 或公司 A
是否有任何使用 NLP 的 python 脚本可以从数据集中找到相似的名称。
提前致谢
最佳答案
您可以使用 spacy获得 2 个文本之间的相似性。
import spacy
nlp = spacy.load("en_core_web_md") # make sure to use larger package!
doc1 = nlp("Coca-Cola")
doc2 = nlp("Pepsi")
doc3 = nlp("Company Coca-Cola")
doc4 = nlp("Company Pepsi-Cola")
print(doc1, "<->", doc2, doc1.similarity(doc2))
print(doc3, "<->", doc4, doc3.similarity(doc4))
有以下相似之处
Coca-Cola <-> Pepsi 0.6684898494102074
Company Coca-Cola <-> Company Pepsi-Cola 0.934960639746236
关于Python编程从名称列表中查找相似的名称,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71864019/