linux - 如何从多个文件中提取特定信息并在linux中制作表格?

标签 linux grep text-files tabular text-extraction

我有多个包含信息的文本文件。这里我展示了两个如下所示的文本文件:

示例1.txt

Status  /documents/Sample1.sorted.bam
Assigned        50945040
Unassigned_Unmapped     947866
Unassigned_MappingQuality       0
Unassigned_Chimera      0
Unassigned_FragmentLength       0
Unassigned_Duplicate    0
Unassigned_MultiMapping 49013681
Unassigned_Secondary    0
Unassigned_Nonjunction  0
Unassigned_NoFeatures   21189312
Unassigned_Overlapping_Length   0
Unassigned_Ambiguity    4430011

样本2.txt

Status  /documents/Sample2.sorted.bam
Assigned        36335614
Unassigned_Unmapped     870456
Unassigned_MappingQuality       0
Unassigned_Chimera      0
Unassigned_FragmentLength       0
Unassigned_Duplicate    0
Unassigned_MultiMapping 68688141
Unassigned_Secondary    0
Unassigned_Nonjunction  0
Unassigned_NoFeatures   23746485
Unassigned_Overlapping_Length   0
Unassigned_Ambiguity    3734593

对于单个文本文件,我正在使用 grep:

grep "Assigned\|Unmapped\|MultiMapping\|NoFeatures\|Ambiguity" Sample1.txt > output.txt

但我希望输出如下所示,我可以在所有文本文件上使用一个小脚本并制作表格:

                        Sample1       Sample2
Assigned                50945040      36335614
Unassigned_Unmapped     947866        870456
Unassigned_MultiMapping 49013681      68688141
Unassigned_NoFeatures   21189312      23746485
Unassigned_Ambiguity    4430011       3734593

最佳答案

$ cat tst.awk
$2 != 0 {
    printf "%s%s", (NR>1 ? $1 : "Name"), OFS
    for (i=2; i<=NF; i+=2) {
        gsub(/^.*\/|\..*$/,"",$i)
        printf "%s%s", $i, (i<NF ? OFS : ORS)
    }
}

$ paste Sample1.txt Sample2.txt | awk -f tst.awk | column -t
Name                     Sample1   Sample2
Assigned                 50945040  36335614
Unassigned_Unmapped      947866    870456
Unassigned_MultiMapping  49013681  68688141
Unassigned_NoFeatures    21189312  23746485
Unassigned_Ambiguity     4430011   3734593

要获得 Excel 可以理解的输出而不是问题中显示的输出,请执行以下操作:

$ cat tst.awk
BEGIN { OFS="," }
$2 != 0 {
    printf "%s%s", (NR>1 ? $1 : "Name"), OFS
    for (i=2; i<=NF; i+=2) {
        gsub(/^.*\/|\..*$/,"",$i)
        printf "%s%s", $i, (i<NF ? OFS : ORS)
    }
}

$ paste Sample1.txt Sample2.txt | awk -f tst.awk > output.csv

然后双击 output.csv 以使用 Excel 打开它。

关于linux - 如何从多个文件中提取特定信息并在linux中制作表格?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50552072/

相关文章:

c - 从文件中读取数据并将其写入链表

linux - linux perf 对于测量多线程 C 程序的缓存未命中是否准确?

linux - 我想复制一个文件,其中一个脚本文件存在于所有子目录中

linux - 保存到变量时如何格式化 grep 输出

azure - 如何删除文本文件中引号内而非行尾的\r\n 换行符

c++ - 从 C++ 文本文件中读取坐标

linux - 无法从目录中删除文件

linux - 使 bash printf 将数组视为一个参数

linux - 管道中的多个 grep 在完成后不会终止

bash - 如何将一系列 bash 命令定义为字符串?