linux - 是否可以部分解压缩 .vcf 文件?

标签 linux gzip bioinformatics bcftools vcf-variant-call-format

我有一个约 300 GB 的压缩 vcf 文件 (.vcf.gz),其中包含大约 700 只狗的基因组。我只对这些狗中的几只感兴趣,目前我没有足够的空间来解压整个文件,尽管我正在让一台电脑来做这件事。是否可以仅解压缩文件的一部分以开始测试我的脚本?

我正在尝试在样本子集的某个位置上使用特定的 SNP。我已尝试使用 bcftools 无济于事:(如果有人能确定哪里出了问题,我也会非常感激。我为输出创建了一个空文件 (722g.990.SNP.INDEL. chrAll.vcf.bgz) 但它返回以下错误)

bcftools view -f PASS --threads 8 -r chr9:55252802-55252810 -o 722g.990.SNP.INDEL.chrAll.vcf.gz -O z 722g.990.SNP.INDEL.chrAll.vcf.bgz

The output type "722g.990.SNP.INDEL.chrAll.vcf.bgz" not recognised

我正计划尝试 awk,但需要先解压缩文件。是否可以部分解压缩它以便我可以试试这个?

最佳答案

仔细检查命令行中的 bcftools view .

  1. 当您为 -O(上层-case O) 像这样的命令行选项 -O something。根据您收到的错误消息,您可能已将文件名放在那里。

  2. 检查您的命令中的输入和输出文件名是否有误。注意-o(小写o)命令行选项指定了输出文件名,命令行末尾的文件名为输入文件名。

此外,您写道您为输出创建了一个空文件。您不需要这样做,bcftools 将创建输出文件。

关于linux - 是否可以部分解压缩 .vcf 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56047040/

相关文章:

linux - 在 Linux 中使用 Tail 递归地输出到单独的文件中

linux - 从 bash 脚本写入文件

java - 字符串base64解码未gziped从little-endian 4字节int到java int

groovy - 用于处理给定目录中所有文件的 Nextflow 脚本

bioinformatics - 如何解释两种情况下的对数倍数变化 (log2FC)

r - 如何在R中按列值范围过滤行?

linux - Apache2 - 添加子域时遇到问题

linux - 为什么在安装了 linux 内核调试包的系统中需要两个内核模块副本?

linux - gzip 在脚本中已经有 gz 后缀不变

linux - 如何在logrotate中排除 ".gz"文件