linux - 搜索相似的重复文件名(文件名末尾的日期戳不同)

标签 linux bash duplicates filenames

我有类似(几乎相同)的问题,如 ( Keep latest file and delete all other) 除了我的文件列表不同而且我不懂 Python(尝试在 Bash 中做)

目录包含这样的文件,例如:

mysql-2016-01-24/     *<--  dirname*
    adsoglasi-2016-01-24-05.35.gz
    adsoglasi-2016-01-24-09.35.gz
    adsoglasi-2016-01-24-13.35.gz
    adsoglasi-2016-01-24-17.35.gz
    adsoglasi-2016-01-24-21.35.gz
    ehoplit-2016-01-24-05.35.gz
    ehoplit-2016-01-24-09.35.gz
    ehoplit-2016-01-24-13.35.gz
    ehoplit-2016-01-24-17.35.gz
    ehoplit-2016-01-24-21.35.gz
    posavje-2016-01-24-05.35.gz
    posavje-2016-01-24-09.35.gz
    posavje-2016-01-24-13.35.gz
    posavje-2016-01-24-17.35.gz
    posavje-2016-01-24-21.35.gz
    export-mysql-baze-2016-01-24-05.35.log
    export-mysql-baze-2016-01-24-09.35.log
    export-mysql-baze-2016-01-24-13.35.log
    export-mysql-baze-2016-01-24-17.35.log
    export-mysql-baze-2016-01-24-21.35.log
    flora-2016-01-24-05.35.gz
    flora-2016-01-24-09.35.gz
    flora-2016-01-24-13.35.gz
    flora-2016-01-24-17.35.gz
    flora-2016-01-24-21.35.gz
    karcher-2016-01-24-05.35.gz
    karcher-2016-01-24-09.35.gz
    karcher-2016-01-24-13.35.gz
    karcher-2016-01-24-17.35.gz
    karcher-2016-01-24-21.35.gz
    knjigarna-2016-01-24-05.35.gz
    knjigarna-2016-01-24-09.35.gz
    knjigarna-2016-01-24-13.35.gz
    knjigarna-2016-01-24-17.35.gz
    knjigarna-2016-01-24-21.35.gz
    mysql-2016-01-24-05.35.gz
    mysql-2016-01-24-09.35.gz
    mysql-2016-01-24-13.35.gz
    mysql-2016-01-24-17.35.gz
    mysql-2016-01-24-21.35.gz
    mysqlshow_grants-2016-01-24-05.36.49.gz
    mysqlshow_grants-2016-01-24-09.36.50.gz
    mysqlshow_grants-2016-01-24-13.36.48.gz
    mysqlshow_grants-2016-01-24-17.36.48.gz
    mysqlshow_grants-2016-01-24-21.36.49.gz
    pohistvo-2016-01-24-05.35.gz
    pohistvo-2016-01-24-09.35.gz
    pohistvo-2016-01-24-13.35.gz
    pohistvo-2016-01-24-17.35.gz
    pohistvo-2016-01-24-21.35.gz
    akord-2016-01-24-05.36.gz
    akord-2016-01-24-09.36.gz
    akord-2016-01-24-13.36.gz
    akord-2016-01-24-17.36.gz
    akord-2016-01-24-21.36.gz
    ekomprof-2016-01-24-05.36.gz
    ekomprof-2016-01-24-09.36.gz
    ekomprof-2016-01-24-13.36.gz
    ekomprof-2016-01-24-17.36.gz
    ekomprof-2016-01-24-21.36.gz
    gume-2016-01-24-05.36.gz
    gume-2016-01-24-09.36.gz
    gume-2016-01-24-13.36.gz
    gume-2016-01-24-17.36.gz
    gume-2016-01-24-21.36.gz
    orchestra_test-2016-01-24-05.36.gz
    orchestra_test-2016-01-24-09.36.gz
    orchestra_test-2016-01-24-13.36.gz
    orchestra_test-2016-01-24-17.36.gz
    orchestra_test-2016-01-24-21.36.gz

这是每天在单独的目录中完成的

mysql-2015-11-16/
mysql-2015-11-19/

-- || --

mysql-2016-01-18/
mysql-2016-01-19/
mysql-2016-01-20/
mysql-2016-01-21/
mysql-2016-01-22/
mysql-2016-01-23/
mysql-2016-01-24/
...

我正在寻找的目录将只保留最新的日期和时间文件名,并且每个“重复”的相似文件都被删除(它们使空间困惑),

我希望得到的输出:

mysql-2015-11-16/
                adsoglasi-2016-01-16-21.35.gz
                ehoplit-2016-01-16-21.35.gz
                posavje-2016-01-16-21.35.gz
                export-mysql-baze-2016-01-16-21.35.log
                flora-2016-01-16-21.35.gz
                karcher-2016-01-16-21.35.gz
                knjigarna-2016-01-16-21.35.gz
                mysql-2016-01-16-21.35.gz
                mysqlshow_grants-2016-01-16-21.36.49.gz
                pohistvo-2016-01-16-21.35.gz
                akord-2016-01-16-21.36.gz
                ekomprof-2016-01-16-21.36.gz
                gume-2016-01-16-21.36.gz
                orchestra_test-2016-01-16-21.36.gz
-- || --
mysql-2015-11-19/
                ....filenames with date ...2015-11-19... 
-- || --
mysql-2016-01-24/
                adsoglasi-2016-01-24-21.35.gz
                ehoplit-2016-01-24-21.35.gz
                posavje-2016-01-24-21.35.gz
                export-mysql-baze-2016-01-24-21.35.log
                flora-2016-01-24-21.35.gz
                karcher-2016-01-24-21.35.gz
                knjigarna-2016-01-24-21.35.gz
                mysql-2016-01-24-21.35.gz
                mysqlshow_grants-2016-01-24-21.36.49.gz
                pohistvo-2016-01-24-21.35.gz
                akord-2016-01-24-21.36.gz
                ekomprof-2016-01-24-21.36.gz
                gume-2016-01-24-21.36.gz
                orchestra_test-2016-01-24-21.36.gz

...现在这不是一个更好的列表 :-)

但由于我在使用 fdupes 或类似工具等“工具”时没有取得任何成功,因此我向专业人士寻求帮助。

泰, 最好的问候。

最佳答案

幸运的是,这些日期戳采用 ISO 表示法,带有年-月-日,因此只需按 ascii 排序,也可以按日期排序。这使这些事情变得容易。仅仅依靠“ls”排序得到正确顺序的文件,然后我们可以读取,比较日期之前的部分,如果前一个有相同的基本部分,那么我们可以删除前一个。

假设这些文件夹中的所有文件确实具有该模式(特别是如果基本名称部分不存在“dash-year-dash”模式——如果不确定,则必须使正则表达式更长以确保仅匹配日期+序列+扩展名)。首先让我们看看会删除什么,在这样的文件夹中执行:

ls | perl -nle '($b)=m{^(.*?)-2\d\d\d-.*}; print $fn if $fn && $b eq $p_b; $p_b=$b; $fn=$_;'

要真正删除这些文件,只需将“print”替换为“unlink”语句即可:

ls | perl -nle '($b)=m{^(.*?)-2\d\d\d-.*}; unlink $fn if $fn && $b eq $p_b; $p_b=$b; $fn=$_;'

要在所有这些文件夹上执行此操作,请 cd 进入包含所有这些 mysql-YYYY-MM-DD 文件夹的父文件夹:

for d in mysql*; do (cd $d;
    ls | perl -nle '($b)=m{^(.*?)-2\d\d\d-.*}; unlink $fn if $fn && $b eq $p_b; $p_b=$b; $fn=$_;'
); done

-- 编辑--

显然你有别名“ls”到“ls -l”。要完全避免“ls”:

find . -maxdepth 1 -type f -print0 | sort | perl -0x00 -ne '($b)=m{^(.*?)-2\d\d\d-.*}; unlink $fn if $fn && $b eq $p_b; $p_b=$b; $fn=$_;'

但是当您甚至不确定作为输入提供的所有文件是否都不是预期的格式时,也许您应该更具体地确定要处理的文件以及要排除的文件。现在该模式假定模式“-2\d\d\d-”(短划线,数字 2,后跟 3 个数字,后跟短划线)必须出现在文件名中,并且该部分开始日期戳。

例如匹配格式为“-YYYY-MM-DD-”的完整日期(包括前后破折号),并尽可能匹配到名称的末尾;

find . -maxdepth 1 -type f -print0 | sort | 
perl -0x00 -ne '($b)=m{^(.*)-2\d\d\d-\d\d-\d\d-.*}; unlink $fn if $fn && $b eq $p_b; $p_b=$b; $fn=$_;'

该日期之前的任何内容都被视为要比较的基准;该日期和之后的内容被认为是“模糊”部分,仅用于排序。

关于linux - 搜索相似的重复文件名(文件名末尾的日期戳不同),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35132768/

相关文章:

c - 在 Linux 中处理 SIGBUS

PHP多维数组: how to remove duplicate entries

python - 如何在 Dict 中查找重复值并使用这些值打印键

bash - 在 mac osx 上使用 split 函数重命名输出文件

linux - 将多页 PDF 转换为单个图像

c - 从 shell 脚本向 C 程序发送输入

添加重复项时引发异常的 .NET 集合

linux - 使用 SSH 在桌面上打开应用程序

linux - 阻止其他计算机使用同一 IP 访问网站

linux - 识别c中的虚拟网络接口(interface)