我们正在做大量工作,试图协调大约 1,000 个重复的制造商名称和 1,000,000 个重复的零件号。出现的一件事是如何“匹配”诸如“Limited”与“Ltd.”之类的东西。与“有限公司”
目的是让应用程序将这些匹配项协调成标准格式。所以:
ACME 有限公司 ACME 有限公司 ACME有限公司
应全部核对到 ACME Ltd.
这也将用于防止将来输入额外的重复项。
关于如何在 SQL Server 中完成这种模式匹配有什么建议吗?是否有任何已知的算法来查找具有映射等效项等的项目...?
谢谢!
埃里克。
最佳答案
一个表格在一列中列出您想要的内容,在下一列中列出变体怎么样?
Ltd Limited
Ltd Ltd.
St Street
St Str.
然后,如果您在第二列中找到匹配项,则将其更改为第一列。当您找到其他替代方案时,可能需要多次迭代。
关于sql - Limited, Ltd, Incorporated, Inc 等的字符串模式匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4742067/