我有两个数据集。 A {(1,苹果),(2,橙子),(3,香蕉)} 且 B={(1,甲骨文),(2,猿),(3,naana),(4,奥兰多),(5 ,应用程序)(6,横幅)}
我有一个 udf,它给出两个字符串之间的 Levenshtein 分数。但是如何用B中的所有字段计算A中的每个字段以获得B中最匹配的字符串。
例如,A 中“apple”的 Levenshtein 得分对于应用程序来说比 B 中的 ape 得分更高 A 中“橙色”的 Levenshtein 分数对于 Oracle 来说比 B 中的奥兰多分数更高 A 中“香蕉”的编辑分数对于 naana 而言高于 B 中的横幅。
最佳答案
可能会进行CROSS
。然后计算每对的 Lvenshtein 距离并找出每对的最大值。
关于hadoop - 如何在 Pig Latin 中实现 Levenshtein 算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25720493/