如何使用 Python 高效地获取基因组序列?例如,从 .fa 文件或其他一些容易获得的格式?我基本上想要一个接口(interface) fetch_seq(chrom, strand, start, end) 它将返回指定链上给定染色体上的序列 [start, end]。
类似地,是否有用于获取 phastCons 分数的编程 python 接口(interface)?
谢谢。
最佳答案
从大型人类染色体文件中检索序列数据在内存方面可能效率低下,因此如果您正在寻找计算效率,您可以将序列数据格式化为打包的二进制字符串并根据字节位置进行查找。我在 perl 中编写了例程来执行此操作(可用 here ),而 python 具有相同的 pack and unpack routines - 所以它可以做到,但只有当你在有限的机器上遇到大文件问题时才值得。否则使用 biopython SeqIO
关于python - 在 Python 中有效地获取基因组序列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3191774/