hadoop - 如何在 Pig Latin 中实现 Levenshtein 算法

我有两个数据集。 A {(1,苹果),(2,橙子),(3,香蕉)} 且 B={(1,甲骨文),(2,猿),(3,naana),(4,奥兰多),(5 ，应用程序)(6，横幅)}

我有一个 udf，它给出两个字符串之间的 Levenshtein 分数。但是如何用B中的所有字段计算A中的每个字段以获得B中最匹配的字符串。

例如，A 中“apple”的 Levenshtein 得分对于应用程序来说比 B 中的 ape 得分更高 A 中“橙色”的 Levenshtein 分数对于 Oracle 来说比 B 中的奥兰多分数更高 A 中“香蕉”的编辑分数对于 naana 而言高于 B 中的横幅。

最佳答案

可能会进行CROSS。然后计算每对的 Lvenshtein 距离并找出每对的最大值。

关于hadoop - 如何在 Pig Latin 中实现 Levenshtein 算法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25720493/

相关文章：

php - 从post循环遍历多维数组并保存到mysql