是否有任何算法或标准来验证不同格式的客户名称。
我的意思是,
- J.史密斯
- 约翰·史密斯
- 约翰·史密斯
- J.路易斯·史密斯
- 约翰·路易斯·S.
可以是同一个人,应该通过验证。
谢谢
最佳答案
接受的答案Figure out if a business name is very similar to another one - Python肯定会帮助你,因为我自己已经研究了一种非常相似的方法来规范化名称。
请注意,单个独立指标是不够的。必须实现集成方法,将字符 N Gram 匹配、编辑距离等考虑在内,最终返回匹配词的强度。设计一个公式来计算匹配关键字的强度,一旦您的名称列表用完,只需为强度低于您设置的特定阈值的名称/单词重新运行算法。这使得名称与匹配/强度值更强的其他一些名称产生共鸣。
此外,您还必须注意精确度/召回率的权衡。通过上述方法,我发现精度太高了,但召回率不是很好。
关于客户姓名验证算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19984002/