python - 在较大列表中处理可变大小的子列表

标签 python nested-lists dna-sequence

我是这里的一名生物工程博士生,正在尝试自学 Python 编程以用于自动化我的部分研究,但我遇到了一个问题,即在我可以处理的更大列表中处理子列表'似乎无法解决。

基本上,我正在尝试做的目标是编写一个小脚本来处理一个 CSV 文件,其中包含我使用各种 DNA 组装方法构建的质粒序列列表,然后吐出引物序列我需要订购才能构建质粒。

这是我正在处理的场景:

当我想要构建质粒时,我必须在我的 Excel 电子表格中输入该质粒的完整序列。我必须在两种 DNA 组装方法中进行选择,称为“Gibson”和“iPCR”。每个“iPCR”组件只需要列表中的一行,所以我已经知道如何处理这些人了,因为我只需要将我要构建的质粒的完整序列放入一个细胞中。另一方面,“Gibson”程序集要求我必须将完整的 DNA 序列分成更小的 block ,因此有时我需要在 Excel 电子表格中使用 2-5 行来完整描述一个质粒。

所以我最终得到了一个看起来像这样的电子表格:

构造.....策略.....名称

1.....Gibson.....P(OmpC)-cI::P(cI)-LacZ Controller
1.....Gibson.....P(OmpC)-cI::P(cI)-LacZ Controller
1.....Gibson.....P(OmpC)-cI::P(cI)-LacZ Controller
2.....iPCR.......P(cpcG2)-K1F Controller 带 K1F 位置。意见反馈
3.....Gibson.....P(cpcG2)-K1F Controller 交换启动子位置
3.....Gibson.....P(cpcG2)-K1F Controller 交换启动子位置
4.....iPCR.......P(cpcG2)-K1F controller with stronger K1F RBS library

我觉得这个长度的榜单已经足够有代表性了。

所以我遇到的问题是,我希望能够遍历列表并处理 Gibsons,但我似乎无法让代码按我想要的方式工作。这是我到目前为止编写的代码:

#import BioPython Tools
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC

#import csv tools
import csv
import sys
import os

with open('constructs-to-make.csv', 'rU') as constructs:
    construct_list = csv.reader(constructs, delimiter=',')
    construct_list.next()
    construct_number = 1
    primer_list = []
    temp_list = []
    counter = 2

    for row in construct_list:
        print('Current row is row number ' + str(counter))
        print('Current construct number is ' + str(construct_number))
        print('Current assembly type is ' + row[1])
        if row[1] == "Gibson": #here, we process the Gibson assemblies first
            print('Current construct number is: #' + row[0] + ' on row ' + str(counter) + ', which is a Gibson assembly')
##            print(int(row[0]))
##            print(row[3])
            if int(row[0]) == construct_number:
                print('Adding DNA sequence from row ' + str(counter) + ' for construct number ' + row[0])
                temp_list.append(str(row[3]))
                counter += 1
            if int(row[0]) > construct_number:
                print('Current construct number is ' + str(row[0]) + ', which is greater than the current construct number, ' + str(construct_number))
                print('Therefore, going to work on construct number ' + str(construct_number))
                for part in temp_list: #process the primer design work here
                    print('test')
##                    print(part)
                construct_number += 1
                temp_list = []
                print('Adding DNA from row #' + str(counter) + ' from construct number ' + str(construct_number))
                temp_list.append(row)
                print('Next construct number is number ' + str(construct_number))
                counter += 1
##            counter += 1
        if str(row[1]) == "iPCR":
            print('Current construct number is: ' + row[0] + ' on row ' + str(counter) + ', which is an iPCR assembly.')
            #process the primer design work here
            #get first 60 nucleotides from the sequence
            sequence = row[3]
            fw_primer = sequence[1:61]
            print('Sequence of forward primer:')
            print(fw_primer)
            last_sixty = sequence[-60:]
##            print(last_sixty)
            re_primer = Seq(last_sixty).reverse_complement()
            print('Sequence of reverse primer:')
            print(re_primer)
            #ending code: add 1 to counter and construct number
            counter += 1
            construct_number += 1
##            if int(row[0]) == construct_number:
##        else:
##            counter += 1
##            construct_number += 1
##    print(temp_list)

##        for row in temp_list:
##    print(temp_list)        
##    print(temp_list[-1])
#                fw_primer = temp_list[counter - 1].

(我知道代码可能看起来很菜鸟 - 除了入门级 Java,我从未上过任何编程课。)

此代码的问题在于,如果我有 n 个“构建体”(又名质粒),我试图通过“Gibson”程序集构建它,它将处理前 n-1 个质粒,但不会处理最后一个。然而,我也想不出任何更好的方法来编写这段代码,但我可以看到,对于我试图实现的工作流程,知道如何处理列表中的“n”个东西,但每个“东西” "行数可变,对我来说真的很方便。

非常感谢任何人的帮助!非常感谢!

最佳答案

The problem with this code is that if I have n "constructs" (a.k.a. plasmids) that I'm trying to build by "Gibson" assembly, it will process the first n-1 plasmids, but not the last one.

这实际上是一个普遍的问题,最简单的解决方法是在循环后添加一个检查,如下所示:

for row in construct_list:
    do all your existing code
if we have a current Gibson list:
    repeat the code to process it.

当然,您不想重复自己……所以您将这项工作转移到一个函数中,您可以在两个地方调用该函数。

但是,我可能会用不同的方式写这个,使用 groupby .我知道乍一看这可能看起来“太高级了”,但值得尝试看看您是否能理解它,因为它使事情变得简单得多。

def get_strategy(row):
    return row[0]
for group in itertools.groupby(construct_list, key=get_strategy):

现在,您将获得每个构造作为一个单独的列表,因此您根本不需要 temp_list。例如,第一组将是:

[[1, 'Gibson', 'P(OmpC)-cI::P(cI)-LacZ controller'],
 [1, 'Gibson', 'P(OmpC)-cI::P(cI)-LacZ controller'],
 [1, 'Gibson', 'P(OmpC)-cI::P(cI)-LacZ controller']]

接下来是:

[[2, 'iPCR', 'P(cpcG2)-K1F controller with K1F pos. feedback']]

而且最后不会有剩余的组需要担心。

所以:

for group in itertools.groupby(construct_list, key=get_strategy):
    construct_strategy = get_strategy(group[0])
    if construct_strategy == "Gibson":
        # your existing code, using group instead of temp_list,
        # and no need to maintain temp_list at all
    elif construct_strategy == 'iPCR":
        # your existing code, using group[0] instead of row

一旦克服了抽象障碍,以这种方式思考问题就会简单得多。

事实上,一旦您开始直观地掌握迭代器,您就会开始找到 itertools(及其文档页面上的食谱,以及第三方库 more_itertools,以及您可以自己编写的类似代码)将很多复杂的问题变成非常简单的问题。 “如何跟踪行列表中的当前匹配行组?”的答案是“保留一个临时列表,并记住在每次组更改时检查它,然后在最后再次检查是否有剩余”,但是等效问题“如何将行迭代转换为行组迭代?”的答案是“将迭代器包装在 groupby 中。”

您可能还想添加一个 assert 或其他检查 all(row[1] == construct_strategy for row in group[1:]),即len(group) == 1iPCR 的情况下,没有意外的第三种策略等,所以当你不可避免地遇到错误时,它会是更容易判断是错误数据还是错误代码。

与此同时,与其使用 csv.reader、跳过第一行并通过无意义的数字引用列,不如使用 DictReader 可能更好:

with open('constructs-to-make.csv', 'rU') as constructs:
    primer_list = []
    def get_strategy(row):
        return row["Strategy"]
    for group in itertools.groupby(csv.DictReader(constructs), key=get_strategy):
        # same as before, but with
        # ... row["Construct"] instead of row[0]
        # ... row["Strategy"] instead of row[1]
        # ... row["Name"] instead of row[2]

关于python - 在较大列表中处理可变大小的子列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14063387/

相关文章:

Python - 解析 JSON 数据集

python - 如何处理 Selenium 中的错误(无法定位元素)

python - 将任意长度的位置列表 [4, 1, 2] 转换为嵌套列表的索引

r - 如何使用一种颜色创建微生物组数据的条形图以获得更高的分类等级和渐变颜色

python - 将 DNA 翻译为蛋白质时输出格式不正确

Python正则表达式模块模糊匹配: substitution count not as expected

python - Pandas 提取值(value)变化的前一行

python - 如何在 Python 中创建由多个对象组成的 3D 数组?

python - 算法,列表元素之间的最近点

python - 如何在 Python 中模拟字典