我正在尝试编写一个 AWK 脚本来解析表单文件
> field1 - field2 field3 ...
lineoftext
anotherlineoftext
anotherlineoftext
我正在使用正则表达式检查第一行是否正确(以 > 开头,然后是后面的内容),然后打印所有其他行。这是我写的脚本,但它只验证文件格式是否正确,然后不打印任何内容。
#!/bin/bash
# FASTA parser
awk ' BEGIN { x = 0; }
{ if ($1 !~ />.*/ && x == 0)
{ print "Not a FASTA file"; exit; }
else { x = 1; next; }
print $0 }
END { print " - DONE - "; }'
最佳答案
基本上您可以使用以下 awk 命令:
awk 'NR==1 && /^>./ {p=1} p' file
在第一行NR==1
它检查该行是否以 >
开头其次是“某物”(/^>./
)。如果该条件为真,则变量 p
将被设置为一个。 p
最后检查是否p
在这种情况下计算 true 并打印该行。
如果你想打印错误信息,你需要稍微还原一下逻辑:
awk 'NR==1 && !/^>./ {print "Not a FASTA file"; exit 1} 1' file
在这种情况下,如果第一行不是以 >
开头,程序将打印错误消息并退出程序。 .否则所有行都会打印,因为 1
始终计算为真。
关于regex - 用于检查文件的第一行然后打印其余部分的 AWK 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33997642/