python - ppmap/parallel python 中是否存在隐藏的可能死锁?

标签 python biopython parallel-python

我在使用 map 的并行版本时遇到了一些麻烦(ppmap 包装器,由 Kirk Strauser 实现)。

我尝试并行运行的函数对大量字符串(蛋白质序列)运行简单的正则表达式搜索,这些字符串是使用 BioPython 的 SeqIO 从文件系统中解析出来的。每个函数调用都使用自己的文件。

如果我使用法线贴图运行该函数,一切都会按预期进行。然而,当使用 ppmap 时,一些运行简单卡住,没有 CPU 使用率,主程序甚至不对 KeyboardInterrupt 使用react。此外,当我查看正在运行的进程时,工作人员仍然在那里(但不再使用任何 CPU)。

例如

/usr/bin/python -u /usr/local/lib/python2.7/dist-packages/pp-1.6.1-py2.7.egg/ppworker.py 2>/dev/null

此外,工作人员似乎不会卡住任何特定的数据输入 - 如果我手动终止进程并重新运行执行,它会在不同的点停止。 (所以我暂时求助于保留已完成条目的列表并多次重新启动程序)。

有什么办法可以看出问题出在哪里?

我正在运行的代码示例:

def analyse_repeats(data):
    """
    Loads whole proteome in memory and then looks for repeats in sequences, 
    flags both real repeats and sequences not containing particular aminoacid
    """    
    (organism, organism_id, filename) = data

    import re
    letters = ['C','M','F','I','L','V','W','Y','A','G','T','S','Q','N','E','D','H','R','K','P']

    try:
        handle = open(filename)
        data = Bio.SeqIO.parse(handle, "fasta")

        records = [record for record in data]
        store_records = []
        for record in records:
            sequence = str(record.seq)
            uniprot_id = str(record.name)
            for letter in letters:
                items = set(re.compile("(%s+)" % tuple(([letter] * 1))).findall(sequence))     
                if items:
                    for item in items:
                        store_records.append((organism_id,len(item), uniprot_id, letter))
                else:
                    # letter not present in the string, "zero" repeat
                    store_records.append((organism_id,0, uniprot_id, letter))
        handle.close()
        return (organism,store_records)
    except IOError as e:
        print e
        return (organism, [])


res_generator = ppmap.ppmap(
    None, 
    analyse_repeats, 
    zip(todo_list, organism_ids, filenames)
)

for res in res_generator:  
    # process the output

如果我使用简单 map 而不是 ppmap,一切正常:

res_generator = map(
    analyse_repeats, 
    zip(todo_list, organism_ids, filenames)
)

最佳答案

您可以尝试使用 multiprocessing 模块中的 Pool 对象的其中一种方法(如 map)。优点是它是内置的,不需要外部包。它也很好用。

默认情况下,它会使用与您的计算机内核数相同的工作进程数,但您也可以指定一个更大的数目。

关于python - ppmap/parallel python 中是否存在隐藏的可能死锁?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10352606/

相关文章:

python - 知道目录复制何时完成

python - 如何将 int 转换为以 9 为基数且不含 0 的 int?

macos - numpy 未安装在 macOS 上

python - 为什么 Parallel Python 的工作方式如此?

Python 多处理-为已完成的进程分配新函数?

python - 不在 matplotlib 中绘制 'zero' 或将零更改为无 [Python]

python - 如何解码字符串中的unicode字符?

python - 使用 Biopython 查找并提取与精确 DNA 序列匹配的 FASTA

python - 来自 BioPython 的 codeml 永远不会完成

python - 通过无法执行的并行Python执行Fortran子例程