r - 在 R 中对数据框进行双重循环(使用 Levenshtein Dist 相互比较行)的最智能方法?

标签 r levenshtein-distance

我在几条记录上 cooking 了 paramStrings 的 df:

             idName                                          Str
1         Аэрофлот_Эконом 95111000210102121111010100111000100110101001
2        Аэрофлот_Комфорт 95111000210102121111010100111000100110101001
3         Аэрофлот_Бизнес 96111000210102121111010100111000100110101001
4       Трансаэро_Дисконт 26111000210102120000010100001010000010001000
5 Трансаэро_Туристический 26111000210002120000010100001010000010001000
6        Трансаэро_Эконом 26111000210002120000010100001010000010001000

现在我需要使用 levenshtainDist 来将每个函数与其他函数进行比较,levenshtainDist 用作函数(str1,str2),因此我显然需要双循环。但是,我很确定应该有一种简洁的矢量化(apply/lapply/sapply)方式来做到这一点,但是我找不到任何类似的解决方案......

最佳答案

函数adist计算广义编辑距离。这是您所需要的吗?

假设您的数据位于 data.frame 中,使用:adist(mydf$Str) 将返回一个矩阵,其中包含每对 Str 列之间的距离.

关于r - 在 R 中对数据框进行双重循环(使用 Levenshtein Dist 相互比较行)的最智能方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28088160/

相关文章:

r - 以美国的形状排列 ggplot 刻面

r - 遍历属性向量以生成组合图

neo4j - 查找节点之间的相似性

android - 具有 levenshtein 排序和逐字逐句的 Firebase 高级模糊搜索

python - Levenshtein两个文件上的距离花费太多时间

Python-Levenshtein 距离错误 "Assertion failed!"

python - 与 python 列表中的项目的 levenshtein 距离

r - Shiny 的应用程序 : How to dynamically change box title in server. R?

R 通过组合两个变量的共同值来 reshape 数据

r - 如何从雅虎(使用 Quantmod)获取 ETF 财务信息(例如 NAV)?