regex - 用于检查文件的第一行然后打印其余部分的 AWK 脚本

标签 regex bash awk fasta

我正在尝试编写一个 AWK 脚本来解析表单文件

> field1 - field2 field3 ...
lineoftext
anotherlineoftext
anotherlineoftext

我正在使用正则表达式检查第一行是否正确(以 > 开头,然后是后面的内容),然后打印所有其他行。这是我写的脚本,但它只验证文件格式是否正确,然后不打印任何内容。

#!/bin/bash
# FASTA parser

awk ' BEGIN { x = 0; }
{ if ($1 !~ />.*/ && x == 0)
    { print "Not a FASTA file"; exit; }
  else { x = 1; next; }
  print $0 }
END { print " - DONE - "; }'

最佳答案

基本上您可以使用以下 awk 命令:

awk 'NR==1 && /^>./ {p=1} p' file

在第一行NR==1它检查该行是否以 > 开头其次是“某物”(/^>./)。如果该条件为真,则变量 p将被设置为一个。 p最后检查是否p在这种情况下计算 true 并打印该行。

如果你想打印错误信息,你需要稍微还原一下逻辑:

awk 'NR==1 && !/^>./ {print "Not a FASTA file"; exit 1} 1' file

在这种情况下,如果第一行不是以 > 开头,程序将打印错误消息并退出程序。 .否则所有行都会打印,因为 1始终计算为真。

关于regex - 用于检查文件的第一行然后打印其余部分的 AWK 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33997642/

相关文章:

regex - 在多行中第一次出现时结束正则表达式模式

regex - Vue.js - 元素 UI - 表单验证正则表达式

python - 复杂程序转义

bash - Bash/sed/AWK 中大括号的基本解析

javascript - 是否可以合并两个正则表达式查询?

regex - 正则表达式匹配句子中括号内的单词

wordpress - --allow-root 无法在 docker 容器中运行 wp-cli

Bash - "fi ;;"有什么用?

AWK 进程页眉和页脚

regex - 如何对未知(但重复)的词进行分组以创建索引?