我有这样的数据
Mega Mall
Mega Malls
L & T Gate 6
L & T Gate 5
L & T Gate 2
Megas Mall
Mega Mwll
现在我想清理它。我采用了使用编辑距离 1 的编辑距离方法,并处理了 Mega Mall 案例。缺点是它也删除了 L & T Gate 5,2 [我保留第一个条目]。有什么办法可以解决这个问题,而不是删除这些案例和处理拼写错误等。
最佳答案
是的,您可以使用加权形式的编辑距离,而无需真正改变算法或其时间或空间复杂度。不是将任何替换、插入或删除计为 1,而是当涉及的字符(或替换字符中的任何一个)是数字时,将其计为一个更大的数字。
甚至可以对字符串中的特定位置 赋予不同的权重。例如。您可能会决定紧跟在一位或多位数字之后的每个字母都应该被视为更重要(因为例如地址 123B 与 123 有很大不同)。
关于string - 选择性编辑距离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33147438/