拜托,我有两个包含公司名称列的 CSV 文件。 对于 Python3 和 pandas,我进行了合并以比较名称:
compara1 = pd.merge(
dividas_dep, funrural,
left_on='Nome_Devedor',
right_on='Razao_Social')
但是这些文件中的公司名称在某些文件中并不总是正确输入。示例:
AGROPECUARIA INDIANA LTDA
AGROPECUARIA INDINA LTDA
AGROTRI AGROPECUARIA TRIANGULO LTDA
AGROTRI AGROPECUARI TRIANGULO LTDA
所以合并没有找到相似的值 在Python中是否可以搜索高相似度?请注意,“Nome_Devedor”中的行与“Razao_Social”中的行非常相似 有教程吗?
最佳答案
您可以使用这个库来比较字符串:
from difflib import SequenceMatcher
def similar(a, b):
threshold = 0.8
return (SequenceMatcher(None, a, b).ratio() > threshold)
此函数返回 true,字符串相似度达到某个阈值。您可以从两个文件中迭代未考虑的字符串以完成匹配。
关于python - 如何用 Python 搜索相似的列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46709955/