linux - 比对 DNA 序列并标记 SNP

标签 linux dna-sequence

我有两个 fasta 文件。 每个文件包含大鼠或小鼠的短基因组区域序列,具有物种特异性的已知 SNP。

File_1 :

>Rat_1
GGTGCCTGTGTATTGCCTCTGTCGACTGCCTTACGATGTGACCCGCTTCATGAT
>Rat_2
AAGCGGCCGGTTTCCTTGGCGACGAAGAGCGCGGGAATTTCAGATAGATTGTAATTGCGGCTGC
>Rat_3
GCAGCCATCTCTGCAACAATTGTGACAATGGCTGAGCCTAGCACAGACCCCAACAAAGAT


File_2 :

>Mouse_1
GGTGCCTGTGTATTACCTCTGTCGACTGCCTTACGATGTGACCCGCTTCATGAT
>Mouse_1_2
AAGCGGCCGGTTTCCTTGGCGTCGAAGAGCGCGGGAATTTCAGATAGATTGTAATTGCGGCTGC
>Mouse_1_3
GCAGCCATCTCTGCAACAATTGTGACAATGGTTGAGCCTAGCACAGACCCCAACAAAGAT

我想做的是找到SNP并提取它周围大约20个碱基。 结果应该如下所示...

Resut_file :

>Rat_1
CTGTGTATTGCCTCTGTC
         ^  
>Mouse_1
CTGTGTATTACCTCTGTC
         ^ 

请编程高手赐教!!!

谢谢。

最佳答案

有很多工具可以输出 diff,例如 vimdiffdiff 等。

尝试看看类似的问题here

附注在这里问这样的问题是没有意义的,你至少必须展示你曾经尝试过做的事情。

关于linux - 比对 DNA 序列并标记 SNP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29890181/

相关文章:

c - 网络库封装了 Linux 网络系统调用的哪些功能

PHP shell_exec ssh连接

linux - 替换 awk 的结果

c - 如何通过信号重复重启程序

linux - 如何降低 GCC 中的编译成本和 make?

python - 反向互补DNA

python - DNA 字符串中随机基序搜索的意外输出

python - 如何使用任何分类器对每个数据点由一组浮点值组成的数据进行分类?

python - 查找允许某些不匹配的子字符串的快速方法

algorithm - 用于在两个非常长的文本序列中查找唯一集的快速算法