我有一个 CSV,其中包含 500 名成员及其电话号码的列表。我尝试了 diff 工具,但似乎没有一个能找到重复项。
我可以使用正则表达式按成员(member)电话号码查找重复行吗?
我在 Mac 上使用 Textmate。
非常感谢
最佳答案
您要搜索哪些重复项?整条线路还是只是同一个电话号码?
如果是整行,那么试试这个:
sort phonelist.txt | uniq -c | sort -n
您将在底部看到多次出现的所有行。
如果只是某列中的电话号码,则使用:
awk -F ';' '{print $4}' phonelist.txt | uniq -c | sort -n
将“4”替换为电话号码和“;”列的编号与您在文件中使用的真实分隔符。
或者给我们一些来自该文件的示例行。
编辑:
如果数据格式为:name,mobile,phone,uniqueid,group
,则使用以下内容:
awk -F ',' '{print $3}' phonelist.txt | uniq -c | sort -n
在命令行中。
关于regex - 查找重复项(正则表达式),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3804485/