hadoop - 如何在 Pig Latin 中实现 Levenshtein 算法

标签 hadoop foreach nested apache-pig levenshtein-distance

我有两个数据集。 A {(1,苹果),(2,橙子),(3,香蕉)} 且 B={(1,甲骨文),(2,猿),(3,naana),(4,奥兰多),(5 ,应用程序)(6,横幅)}

我有一个 udf,它给出两个字符串之间的 Levenshtein 分数。但是如何用B中的所有字段计算A中的每个字段以获得B中最匹配的字符串。

例如,A 中“apple”的 Levenshtein 得分对于应用程序来说比 B 中的 ape 得分更高 A 中“橙色”的 Levenshtein 分数对于 Oracle 来说比 B 中的奥兰多分数更高 A 中“香蕉”的编辑分数对于 naana 而言高于 B 中的横幅。

最佳答案

可能会进行CROSS。然后计算每对的 Lvenshtein 距离并找出每对的最大值。

http://pig.apache.org/docs/r0.13.0/basic.html#cross

关于hadoop - 如何在 Pig Latin 中实现 Levenshtein 算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25720493/

相关文章:

php - 从post循环遍历多维数组并保存到mysql

java - 嵌套 SQL 语句或 View ?什么是理想的?

mysql - MYSQL 连接中的嵌套 Select 语句

java - 如何将 .txt 文件转换为 Hadoop 的序列文件格式

hadoop - Cloudera 支持 docker 容器或 Docker 支持 CM 5 图像

php - While 语句中的 Foreach (NumRows)

等效于 LINQ Any() 的 JavaScript/jQuery

java - 代码给出 “java.lang.StringIndexOutOfBoundsException: String index out of range: 14”

hadoop - Oozie Java Action 在使用 HCat 摄取期间失败?

javascript - 如何从对象数组中的对象数组中搜索值?