python - Ped Error while converting to binary : Line 1 of . ped 文件的 token 少于预期

标签 python dna-sequence genome

我可以在这里得到一些帮助吗?从“ped”、“map”格式转换为二进制对应的“bed”、“bim”、“fam”时,是否有人在 plink(全基因组关联分析工具集)中遇到以下错误?我正在使用 Linux 和 plink v1.90b3j。

Error: Line 1 of .ped file has fewer tokens than expected.

我在 python 脚本中使用这个命令在几十个文件上运行它:

plink --file S205 --out S205 --make-bed

对于 32 个文件中的 2 个文件,在这种情况下,我收到此错误。该文件与所有其他文件完全一样,因为它们之前也都是使用相同的脚本完成的。所有样本的家庭、父亲、母亲 ID 和性别都相同,正如我所说,等位基因信息的写入方式与所有其他 30 个工作文件完全相同。

当我将行结束编码更改为“Windows”时,我注意到错误变为以下内容。其他好的文件适用于任何类型的行尾(Unix、Win、Mac)。

Error: Line 4009 of .bim file has fewer tokens than expected.

作为示例,我在这里留下工作 *.ped (S209) 和非工作 (S204) 的第一个和最后一个 X 列。

S209 S209 0 0 1 1 C C C C T T T T ... G G G G G G 

S204 S204 0 0 1 1 T T T T G G G G ... G G G G C C 

谢谢! 丹尼尔

最佳答案

我发现了问题。由于碱基质量低,我的“ped”文件没有与“ map ”文件完全相同的基因型数量。我的脚本跳过了那些 SNP,并且没有向“ped”输出任何内容。由于“ map ”文件是根据 GATK pileup 文件位置创建的,因此存在不匹配,因为所有位置都已转移到“ map ”文件。将其保留在这里可能会有用,但可以将其标记为已解决。

关于python - Ped Error while converting to binary : Line 1 of . ped 文件的 token 少于预期,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31249227/

相关文章:

r - 将向量中的起始位置映射到另一个向量中的停止位置

genetic-algorithm - 整洁:物种形成

shell - 将我的 shell 脚本的输出组织到文本文件中的表中

python - 如何快速比较两个文件?

python - 通过 celery 向 django-channels 发送消息

python - Django 模板不迭代列表

string - 根据常见的子模式对短的、同质的字符串 (DNA) 进行聚类并提取类的共识

Java程序故障

python - 如何从 python 字典中返回特定信息?

python - 在 Pandas 中高效编辑字符串并转换为 float