我有两个 fasta 文件。 每个文件包含大鼠或小鼠的短基因组区域序列,具有物种特异性的已知 SNP。
File_1 :
>Rat_1
GGTGCCTGTGTATTGCCTCTGTCGACTGCCTTACGATGTGACCCGCTTCATGAT
>Rat_2
AAGCGGCCGGTTTCCTTGGCGACGAAGAGCGCGGGAATTTCAGATAGATTGTAATTGCGGCTGC
>Rat_3
GCAGCCATCTCTGCAACAATTGTGACAATGGCTGAGCCTAGCACAGACCCCAACAAAGAT
File_2 :
>Mouse_1
GGTGCCTGTGTATTACCTCTGTCGACTGCCTTACGATGTGACCCGCTTCATGAT
>Mouse_1_2
AAGCGGCCGGTTTCCTTGGCGTCGAAGAGCGCGGGAATTTCAGATAGATTGTAATTGCGGCTGC
>Mouse_1_3
GCAGCCATCTCTGCAACAATTGTGACAATGGTTGAGCCTAGCACAGACCCCAACAAAGAT
我想做的是找到SNP并提取它周围大约20个碱基。 结果应该如下所示...
Resut_file :
>Rat_1
CTGTGTATTGCCTCTGTC
^
>Mouse_1
CTGTGTATTACCTCTGTC
^
请编程高手赐教!!!
谢谢。
最佳答案
关于linux - 比对 DNA 序列并标记 SNP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29890181/