linux - awk 根据字符串字符比较将两个文件合并为 2 列

标签 linux bash awk

我是初学者,我的工作对我来说开始变得困难。我解释我的问题。 我有两个表 File1 和 File2(引用表)。

File1
num, Name
1, 1_1_busteni
13, 23_Doicesti
40, 2_AR_Moreni
47, 2_AR_Moreni_SUD
55, Petrolul_Romanesc
62, castor

File2
ID_ref, Name_ref
R_001,  BUSTENI
R_002,  DOICESTI-23
R_003,  MORENI
R_004,  MORENI-SUD
R_005,  ROMANESC
R_006,  CASTOR

File3
num, Name,ID_ref,Name_ref
1, 1_1_busteni, R_001, BUSTENI
13, 23_Doicesti, R_002, DOICESTI-23
40, 2_AR_Moreni, R_003, MORENI
47, 2_AR_Moreni_SUD, R_004, MORENI-SUD
55, Petrolul_Romanesc, R_005, ROMANESC
62, castor, R_006, CASTOR

我没有任何相同的列,但 &2File1 和 &2File2 之间有一些相似之处。 File1 来自用户,我们想要标准化所有内容,所以我有很多不同的案例。 我不知道如何开始。 我的想法是删除第一个文件中的所有“_”和第二个文件中的“-”并比较它们。 我设法做到了

awk 'BEGIN {FS=OFS=","} {gsub(/_/,"",$2)}1' file1.txt and awk 'BEGIN {FS=OFS=","} {gsub(/-/,"",$2)}1’ file2.txt

分开但我不知道如何合并和比较我的两个文件。

我也知道我必须考虑小写字母。 好人给我this code上图:它适用于 CASTOR
但我如何将它与我的 gsub 关联起来???

$ awk '
BEGIN { FS=OFS="," }
NR==FNR {                                                  
    a[tolower($2)]=$0                                      
    next
}
{                                                          
    split($2,b,"[^[:alpha:]]")                             
    print $0 (tolower(b[1]) in a?OFS a[tolower(b[1])]:"")  
}' file2 file1 

也许它存在更好的方法,我很开放!!!

最佳答案

这是 awk 中的一个例子:

$ awk 'BEGIN { FS=", *"; OFS="," }
NR==FNR {
    a[tolower($2)]=$0
    next
}
{
    for(i in a)               # for every city in file2
        if(tolower($2)~i) {   # compare it to a record from file1
            print $0,a[i]     # print it if there is a match
            next
        }
}1' file2 file1
num, Name
1, 1_1_busteni,R_001,  BUSTENI
13, 23_Doicesti
40, 2_AR_Moreni,R_003,  MORENI
47, 2_AR_Moreni_SUD,R_003,  MORENI
55, Petrolul_Romanesc,R_005,  ROMANESC
62, castor,R_006,  CASTOR

任何比这更好的方法都需要使用适当的算法处理名称中的下划线和破折号或近似模式匹配的规则(参见示例 Levenshtein distance)。

关于linux - awk 根据字符串字符比较将两个文件合并为 2 列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45233381/

相关文章:

linux - 发送 HTTP 请求并接收输出。 x86 Linux 汇编

python - 如何将变量参数从 bash 脚本传递到 python 脚本

linux - 如何将多列中的数字排序或重新排列为多行[固定为 4 列]?

bash - 如何解决 bash grep 错误以获得行的平均值

python - 使用Python获取硬盘温度

linux - 在 Linux 上使用文件作为 IPC

linux - 仅用于开发的 Docker

linux - 在BASH中,我们可以赋值并显示变量_(下划线)中的值吗?

bash - 扩展 grep find 并复制到大文件夹(xargs?)

linux - 带命令的 AWK