我需要解析一个大型日志文件(平面文件),其中包含两列值(A 列、B 列)。
两列中的值重复。我需要找到 column-A 中的每个唯一值,我需要找到一组 column-B 值。
这可以使用 unix shell 命令完成还是需要编写任何 perl 或 python 脚本?有哪些方法可以做到这一点?
示例:
xxxA 2
xxxA 1
xxxB 2
XXXC 3
XXXA 3
xxxD 4
输出:
xxxA - 2,1,3
xxxB - 2
xxxC - 3
xxxD - 4
最佳答案
Perl 'one-liner' 旨在/扩展以便所有内容都适合窗口:
$ perl -F -lane '
$hash{ $F[0] }{ $F[1] }++;
} END {
for my $columnA ( keys %hash ) {
print $columnA, " - ", join( ",", keys %$hash{$columnA} ), "\n";
}
'
如果我看到原始发布者的一致尝试,将进行解释。
关于python - 如何从重复值列表中获取唯一值集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4976964/