linux - awk 根据字符串字符比较将两个文件合并为 2 列

我是初学者，我的工作对我来说开始变得困难。我解释我的问题。我有两个表 File1 和 File2(引用表)。

File1
num, Name
1, 1_1_busteni
13, 23_Doicesti
40, 2_AR_Moreni
47, 2_AR_Moreni_SUD
55, Petrolul_Romanesc
62, castor

File2
ID_ref, Name_ref
R_001,  BUSTENI
R_002,  DOICESTI-23
R_003,  MORENI
R_004,  MORENI-SUD
R_005,  ROMANESC
R_006,  CASTOR

File3
num, Name,ID_ref,Name_ref
1, 1_1_busteni, R_001, BUSTENI
13, 23_Doicesti, R_002, DOICESTI-23
40, 2_AR_Moreni, R_003, MORENI
47, 2_AR_Moreni_SUD, R_004, MORENI-SUD
55, Petrolul_Romanesc, R_005, ROMANESC
62, castor, R_006, CASTOR

我没有任何相同的列，但 &2File1 和 &2File2 之间有一些相似之处。 File1 来自用户，我们想要标准化所有内容，所以我有很多不同的案例。我不知道如何开始。我的想法是删除第一个文件中的所有“_”和第二个文件中的“-”并比较它们。我设法做到了

awk 'BEGIN {FS=OFS=","} {gsub(/_/,"",$2)}1' file1.txt and awk 'BEGIN {FS=OFS=","} {gsub(/-/,"",$2)}1’ file2.txt

分开但我不知道如何合并和比较我的两个文件。

我也知道我必须考虑小写字母。好人给我this code上图:它适用于 CASTOR
但我如何将它与我的 gsub 关联起来？？？

$ awk '
BEGIN { FS=OFS="," }
NR==FNR {                                                  
    a[tolower($2)]=$0                                      
    next
}
{                                                          
    split($2,b,"[^[:alpha:]]")                             
    print $0 (tolower(b[1]) in a?OFS a[tolower(b[1])]:"")  
}' file2 file1

也许它存在更好的方法，我很开放!!!

最佳答案

这是 awk 中的一个例子:

$ awk 'BEGIN { FS=", *"; OFS="," }
NR==FNR {
    a[tolower($2)]=$0
    next
}
{
    for(i in a)               # for every city in file2
        if(tolower($2)~i) {   # compare it to a record from file1
            print $0,a[i]     # print it if there is a match
            next
        }
}1' file2 file1
num, Name
1, 1_1_busteni,R_001,  BUSTENI
13, 23_Doicesti
40, 2_AR_Moreni,R_003,  MORENI
47, 2_AR_Moreni_SUD,R_003,  MORENI
55, Petrolul_Romanesc,R_005,  ROMANESC
62, castor,R_006,  CASTOR

任何比这更好的方法都需要使用适当的算法处理名称中的下划线和破折号或近似模式匹配的规则(参见示例 Levenshtein distance)。

关于linux - awk 根据字符串字符比较将两个文件合并为 2 列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45233381/

linux - awk 根据字符串字符比较将两个文件合并为 2 列

上一篇：linux - uwsgi :/usr/lib/libstdc++. so.6 : version `CXXABI_1.3.8' not found (required by/usr/lib/x86_64-linux-gnu/libicuuc. so.55

下一篇：python - 在cygwin错误上安装tensorflow