我有一个这样的 fasta 文件(myfasta.fasta):
>aat.2.2344.a
ATTGCCGGTTTAATATTA
>aat.2.d2344.acc
ATTGCCGGTTTAATAAA
>aat.2.2bb344.a
ATTGCCGGTTTAATAGGAGAGAATT
>aat.2.2ccc344.a
ATTGCCGGTTTAATAGGGAG
>aat.2.2344.acc
ATTGCCGGTTTAATAAA
我还有一个文本文件my.txt
,其中包含与上面fasta文件中的序列匹配的序列:
ATTGCCGGTTTAATAAA
基于此序列,我想提取此序列的所有匹配 ID。有人可以帮我吗?谢谢!
我想要的结果是:
>aat.2.2344.acc
>aat.2.d2344.acc
最佳答案
使用 grep 和 sed:
grep --no-group-separator -B 1 "ATTGCCGGTTTAATAAA" my.txt | sed -n 1~2p
>aat.2.d2344.acc
>aat.2.2344.acc
查看 @QuoraFeans 的回答了解更多信息。
关于unix - 提取 fasta 文件中给定序列的序列头,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52882101/