python - 在 Python 中有效地获取基因组序列?

标签 python bioinformatics biopython

如何使用 Python 高效地获取基因组序列?例如,从 .fa 文件或其他一些容易获得的格式?我基本上想要一个接口(interface) fetch_seq(chrom, strand, start, end) 它将返回指定链上给定染色体上的序列 [start, end]。

类似地,是否有用于获取 phastCons 分数的编程 python 接口(interface)?

谢谢。

最佳答案

从大型人类染色体文件中检索序列数据在内存方面可能效率低下,因此如果您正在寻找计算效率,您可以将序列数据格式化为打包的二进制字符串并根据字节位置进行查找。我在 perl 中编写了例程来执行此操作(可用 here ),而 python 具有相同的 pack and unpack routines - 所以它可以做到,但只有当你在有限的机器上遇到大文件问题时才值得。否则使用 biopython SeqIO

关于python - 在 Python 中有效地获取基因组序列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3191774/

相关文章:

Python Pandas 在 groupby 和聚合之后排序

python - os.walk() 没有获取我的文件名

python - 如何使用 Biopython 获得多个序列比对的共识?

python - urllib2.urlopen 无法使用我的普通 DNS 服务器查找主机名;挖掘等可以

python PIL : Create indexed color image with transparent background

perl - 如果我有它们的坐标,我如何使用 UCSC 的 Perl 脚本提取 DNA 序列?

bioinformatics - RNA 剪接 Python

python - 为什么某些代码在 Python2 中是确定性的,而在 Python 3 中是非确定性的?

python - 使用 Biopython 的搜索词返回登录号

python - 使用 biopython 计算对齐中相同站点百分比的更快方法