我写了一个方法来帮助匹配代表同一个人但以不同方式书写的名字(全名或简称),例如:
Paul Samuelson-Smith
和 Paul Smith
根据我的方法将被视为相等:
private static boolean equalName(String name_2, String name_1){
boolean equality1 = true;
name_1 = name_1.replace("&", " ").replace("-", " ");
String [] names1 = name_1.split(" ");
for (int i = 0; i < names1.length ; i ++) {
if (!name_2.contains(names1[i])) {equality1 = false; break;}
}
boolean equality2 = true;
name_2 = name_2.replace("&", " ").replace("-", " ");
String [] names2 = name_2.split(" ");
for (int i = 0; i < names2.length ; i ++) {
if (!name_1.contains(names2[i])) {equality2 = false; break;}
}
return equality1 || equality2;
}
但是我仍然有一个问题,如果名字有错字怎么办,比如说 Paul Samuelson-Smith
和 Paull Smith
是同一个人。我的问题是是否有任何 API 可以帮助解决可能出现的拼写错误?我怎样才能改进我的方法?
最佳答案
这是一个内置了一些距离算法的库:http://sourceforge.net/projects/simmetrics/
关于java - 如何发现几乎相同的字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19456117/