python - 单独调用规则的变量并为特定规则添加独立的环境

标签 python function wildcard expand snakemake

我需要在集群中运行一个snakemake规则,因此对于某些规则,我需要一些加载所需的工具和库,而这些工具是独立于/独占于其他规则的。在这种情况下,我如何在我的 Snakemake 规则中指定这些。例如,对于规则评分,我目前需要模块加载r/3.5.1导出R_lib =/user/tools/software,我在运行 Snakemake 之前,我在命令行中单独运行这些行。但如果有一种方法可以在 env 规则内实现这一点,那就太好了。

  • 问题,
  • 我有一个规则如下,

    rule score:
        input:
            count=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.tsv'),
            libsize=os.path.join(config['general']['paths']['outdir'], 'count_expression', '{sample}.size_tsv')
        params:
            result_dir=os.path.join(config['general']['paths']['outdir'], 'score'),
            cancertype=config['general']['paths']['cancertype'],
            sample_id=expand('{sample}',sample=samples['sample'].unique())
        output:
            files=os.path.join(config['general']['paths']['outdir'], 'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
        shell:
            'mkdir -p {params.result_dir};Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {params.sample_id} {input.count} {input.libsize}'
    

    我对上述代码片段的实际行为是:

    shell:
            mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv
    

    然而,预期的行为是:

    shell:
            mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC MRT5T /cluster/projects/test/results/exp/MRT5T.tsv /cluster/projects/test/results/Exp/MRT5T.size.tsv
    

    对于第二个示例,

    shell:
            mkdir -p /cluster/user/snakemake_test/results_april30/score;Rscript /cluster/home/user/Projects/R_scripts/scoretool.R /cluster/user/snakemake_test/results_april30/score DMC GNMS4 /cluster/projects/test/results/exp/GNMS4.tsv /cluster/projects/test/results/Exp/GNMS4.ize.tsv
    

    我需要变量 sample_d ['GNMS4', 'MRT5T'] 应单独获取,而不是在一个 shell 命令行中一起获取。

    最佳答案

    关于您的第一个问题:您可以将您喜欢的任何 module loadexport 命令放入规则的 shell 部分。

    关于第二个问题,您可能不应该在规则的 params 部分中使用 expand。在 expand('{sample}',sample=samples['sample'].unique()) 中,您实际上没有使用 sample 通配符的值,而是生成sample['sample'] 中所有唯一值的列表。您可能只需要在 shell 命令的定义中使用 wildcards.sample 而不是使用 params 元素。

    如果您想根据 sample 的可能值运行 score 规则的多个实例,则需要使用另一个需要输出的规则来“驱动”此规则score 作为其输入。

    请注意,为了提高可读性,您可以使用 python 的多行字符串(三引号)。

    总而言之,您可以尝试这样的操作:

    rule all:
        input:
            expand(
                os.path.join(
                    config['general']['paths']['outdir'],
                    'score',
                    '{sample}_bg_scores.tsv',
                    '{sample}_tp_scores.tsv'),
                sample=samples['sample'].unique())
    
    rule score:
        input:
            count = os.path.join(
                 config['general']['paths']['outdir'],
                 'count_expression', '{sample}.tsv'),
            libsize = os.path.join(
                 config['general']['paths']['outdir'],
                 'count_expression', '{sample}.size_tsv')
        params:
            result_dir = os.path.join(config['general']['paths']['outdir'], 'score'),
            cancertype = config['general']['paths']['cancertype'],
        output:
            files = os.path.join(
                config['general']['paths']['outdir'],
                'score', '{sample}_bg_scores.tsv', '{sample}_tp_scores.tsv')
        shell:
            """
            module load r/3.5.1
            export R_lib =/user/tools/software
            mkdir -p {params.result_dir}
            Rscript {config[general][paths][tool]} {params.result_dir} {params.cancertype} {wildcards.sample} {input.count} {input.libsize}
            """
    

    关于python - 单独调用规则的变量并为特定规则添加独立的环境,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56322737/

    相关文章:

    python - python中字符串替换期间的内存错误

    python - 在 Python 中使用字典构建自己的图

    function - Haskell - 将函数元组应用于值元组?

    Java 抽象方法的通配符返回类型

    ssl 通配符子域 www.sub.domain.com

    python - 如何让一个 Flask 应用监听两个不同的端口?

    python - 如何使用 Selenium Python 和 Webdriver 打印下拉列表中存在的月份列表

    javascript - 如何编写识别不平衡括号的函数

    JavaScript For 循环与闭包导致 JSLint 警告

    node.js - Node js上传带有通配 rune 件名的文件