我正在为内部 CRM 开发一些东西。公司当前的前端允许大量重复。我试图阻止最终用户输入同一个人,因为他们搜索的是“Bill Johnson”而不是“William Johnson”。所以用户会输入一些关于他们的新客户的信息,我们会找到相似的名字(包括模糊的名字)并将它们与我们数据库中已有的内容进行匹配,并询问他们是否意味着那些东西......这样的数据库或技术存在?
最佳答案
我在一个网站上实现了这样的功能。我在 PHP 中使用 double_metaphone() + levenstein()。我为 dabatase 中的每个条目预先计算了一个 double_metaphone(),我使用“变音”搜索词的前 x 个字符的 SELECT 来查找它。
然后我根据它们的 levenstein 距离对返回的结果进行排序。 double_metaphone() 不是任何 PHP 库的一部分(上次我检查过),所以我借用了很久以前在网上某个地方找到的 PHP 实现(网站不再在线)。我应该把它贴在我想的某个地方。
编辑:该网站仍在 archive.org 中: http://web.archive.org/web/20080728063208/http://swoodbridge.com/DoubleMetaPhone/
这导致许多其他有用的链接与 double_metaphone() 的源代码,包括 github 上的 Javascript 中的一个:http://github.com/maritz/js-double-metaphone
编辑:浏览我的旧代码,这里是我所做的大致步骤,伪代码以保持清晰:
1) 为数据库中的每个单词预先计算一个 double_metaphone(),即 $word='blahblah'; $soundslike=double_metaphone($word);
2) 在查找时,$word 对数据库进行模糊搜索:$soundslike = double_metaphone($word)
4) SELECT * FROM table
WHERE soundlike
LIKE $soundlike(如果您将 levenstein 存储为过程,更好:SELECT * FROM table WHERE levenstein(soundlike
,$soundlike) < mythreshold ORDER BY levenstein(word
,$word) ASC LIMIT ...等
虽然我不能使用存储过程,但它对我来说效果很好,因为我无法控制服务器并且它使用的是 MySQL 4.20 或其他版本。
关于c# - super 模糊名称检查?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3290350/