用于字符串替换和打印匹配和不匹配字符串的 awk 命令

标签 awk

我想用 File-2 中的匹配字符串替换 File-1 中的多个字符串(超过一千个)

文件 1:

Geneid Length s1 s2
1_1 6571 7 8
1_2 5041 3 0
1_3 1032 7 3    
1_4 1212 3 5    
1_5 1071 3 5    
2_1 7171 2 7
2_2 1038 1 1
2_3 9361 0 6
2_4 1056 5 1

文件 2( map ):

1_1
1_2 k0002
1_3
1_4
1_5 k0006   
2_1
2_2
2_3
2_4 k0528

预期输出:

Geneid Length s1 s2
1_1 6571 7 8
k0002 5041 3 0
1_3 1032 7 3    
1_4 1212 3 5    
k0006 1071 3 5  
2_1 7171 2 7
2_2 1038 1 1
2_3 9361 0 6
k0528 1056 5 1

我使用了以下awk命令:

awk '
NR==FNR {                      
a[$1]=$2                    
next                       
}
{                               
print (($1 in a)?a[$1]:$1, $2, $3, $4)  
}' File-2 File-1 > File-3

这给了我这个:

Geneid  Length  s1  s2
 6571 7 8
k0002 5041 3 0
 1032 7 3   
 1212 3 5   
k0006 1071 3 5  
 7171 2 7
 1038 1 1
 9361 0 6
k0528 1056 5 1

如何修改此 awk 命令以保留不匹配的字符串?
抱歉,我是 linux 和 awk 的新手(正在尝试学习)。

最佳答案

表达式 ($1 in a)?a[$1]:$1 打印 a[$1]$1,具体取决于 $1a 中的键。但所有键都在 a 中,因此,例如,对于键 1_1,它会打印空字符串,即 a["1_1"] 的值。解决方案是仅当 $1 中的键需要添加值时才填充 a

awk 'NR==FNR { if (NF > 1) a[$1]=$2; next }
{ print (($1 in a)?a[$1]:$1, $2, $3, $4) }' File-2 File-1

为了调试像您这样的脚本,它有助于在各个点添加 print 语句以查看脚本正在做什么。这就是我最终找出你的脚本出了什么问题的方法。

# STILL BUGGY, DEBUGGING RUN
awk 'NR==FNR { print("a[" $1 "]=" $2); a[$1]=$2; next; }
{ print ($1 in a ? a[$1] : $1), $2, $3, $4, ($1 in a), a[$1], $1, ($1 in a ? "yes" : "no"), "end" }' File-2 File-1

关于用于字符串替换和打印匹配和不匹配字符串的 awk 命令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68615471/

相关文章:

linux - bash awk - 如何从此行中提取单个字符

shell - 如何在每行的开头添加数字?

python - 如何将列中的整数替换为另一个文件、python 或 awk 中包含的另一个整数

awk - 从第 4 行到最后读取一个文件

awk 无法选择具有空值的列

linux - 在 linux 中使用分隔符 "/"拆分文件

bash - 流过滤大量由标准输入中的行号指定的行

bash - 如何在 Bash 脚本中运行 AWK?

shell - 如何在unix中计算这个差异

linux - 每小时从标准 .gz 日志文件中提取和计算值