我想比较两个具有不同数量实体的巨大 CSV 文件。只有一列包含相同的值,就像它们也存在于同一列的另一个文件中一样,该文件要大得多。
所以我想保留其中一个文件中的行,其中第二个文件中也存在具有相同值的行。
示例:
File a
value1,value2,value3,...
value4,value5,value6,...
value7,value8,value9,...
File b:
value10,value2,value11,...
value12,value13,value14,...
最终文件 b(或完整的新文件)应如下所示:
value10,value2,value11,...
我不认为这有多难,但目前我不知道如何实现这一目标。我如何使用 Linux 工具或 bash/python 脚本到达那里?
感谢您的任何提示!
最佳答案
在 awk 中:
$ awk -F, '
NR==FNR { # hash elements in the first file to a
for(i=1;i<=NF;i++)
a[$i]
next
}
{ # second file
for(i=1;i<=NF;i++) # go thru all elements
if($i in a) { # if match
print # output
next # and skip to next record
}
}
' file1 file2
value10,value2,value11
这个对内存中的第一个文件进行哈希处理。如果巨大您的意思是超出您的内存可以处理的范围,那么这可能不是适合您的解决方案。
关于python - 比较两个 CSV 文件的列并删除差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44967586/