linux - Linux CSV根据大文件中的旧日期删除重复项(超过10万条记录)

标签 linux sorting csv

我们有以下CSV文件,其中包含

DCR_Path,Direction for Translation,Date & Time

data1,Send for Translation To CTM,Sep 30 2014 03:22

data2,Send for Translation To CTM,Sep 30 2014 02:21

data1,Send for Translation To CTM,Sep 30 2014 03:23

data1,Send for Translation To CTM,Sep 30 2013 03:24

data3,Send for Translation To CTM,Sep 30 2014 03:10

data2,Send for Translation To CTM,Sep 30 2014 02:22

data1,Send for Translation To CTM,Sep 30 2014 02:20


我需要采取最新的并删除其他重复项,输出应为:

DCR_Path,Direction for Translation,Date & Time

data1,Send for Translation To CTM,Sep 30 2014 03:23

data2,Send for Translation To CTM,Sep 30 2014 02:22

data3,Send for Translation To CTM,Sep 30 2014 03:10


我尝试了以下命令,但它并未根据旧日期正确删除大型记录的数据

awk -F ',' '{ if (Z) { "(date --date=\""$3"\" +\"%s\")" | getline X ; if (Y[$1] < X) {     Y[$1] = X; C[$1] = $0 } } else { Z = $0 } } END { print Z ; for (V in C) { print C[V] } }' < _YOUR_FILE_


它抛出以下异常

awk: (FILENAME=merged-2014-11-12.csv FNR=145116) fatal: cannot open pipe `(date --date="Nov 6 2014 02:53 " +"%s")' (Too many open files)


下面是我正在使用的文件的位置。

https://drive.google.com/file/d/0B-v5SOZ1TWo-TEFGV05ZZFFwcXM/view?usp=sharing

最佳答案

由于date子进程数量众多,您似乎在打开文件描述符方面遇到了某种限制。 Perl似乎是一个更好的选择,它可以在一个过程中完成所有工作。

#!/usr/bin/perl -nl
if ($. == 1) { print; next }
my ($key, $action, $date) = split /,/;
my ($mo, $d, $y, $h, $m) = split / |:/, $date;
$mo = {Jan=>0,Feb=>1,Mar=>2,Apr=>3,May=>4,Jun=>5,Jul=>6,Aug=>7,Sep=>8,Oct=>9,Nov=>10,Dec=>11}->{$mo};
my $m_cmp = $m + 60*$h + 24*60*$d + 31*24*60*$mo + 12*31*24*60*$y;
$dcr{$key} = [ $action, $date, $m_cmp ] if !$dcr{$key} || $m_cmp > $dcr{$key}->[2];
END {
    print join(",", $_, @{$dcr{$_}}[0,1] ) foreach (sort keys %dcr);
}

关于linux - Linux CSV根据大文件中的旧日期删除重复项(超过10万条记录),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27034061/

相关文章:

regex - 为什么 POSIX "printable characters"类不匹配简单字符串?

javascript - 通过单击另一个表格中的单元格对表格进行排序

linux - 无法在 centos 6.5 上安装 python-dev

php - 以编程方式确定视频文件格式?

python - 查询的最小异或

python - 根据日期对CSV文件进行排序

python - 使用 Pandas ,按从大到小的顺序排序

c - 关于 'Comparison between pointer and integer in C'的警告

php - PHP7,将mySQL导出为CSV不会正确显示特殊字符

regex - 从识别命令解析图像大小