- 我有包含字段 name_entry 的记录,例如 udhaya、udaya、udhaya kumar、uthaya。但这四个人都是同一个人,实际咒语是 udhaya kumar。
- 在这种情况下我需要找到人员记录并将重复项更新为原始记录。
- 我有超过 20000 条记录,其中至少 300 条记录有类似的重复项。 我需要针对这种情况的解决方案。
提前谢谢您..
最佳答案
在数据库级别,无法确定相似的拼写(拼写错误)单词。
但是,很少有自然语言处理库 - 斯坦福 NLP( Stanford_NLP )、Apache Open NLP( Open NLP )等 - 名称实体识别可以扩展,训练自定义模型。您可以从中对相似拼写的单词进行分组并删除重复项。这很复杂,而且结果的准确性取决于模型的训练程度。
但是,从你的问题来看,这是实现的唯一方法。
关于mysql - 在MYSQL中查找具有不同拼写的重复记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41608379/