python - 列表中唯一字符串的最大值

标签 python list python-itertools

您好,我正在尝试创建列表中唯一字符串的最大值的列表。

示例:

a = ['DS10.json', 'DS11.json', 'DT4.json', 'DT5.json', 'DT6.json', 'CJ6.json', 'CJ7.json']

应该返回给我以下内容的列表:

['DS11.json', 'DT6.json', 'CJ7.json']

我尝试过以下代码:

def j(l):
    p = []
    for i in l:
        digcode = i.split('.')[0]
        if any(s.startswith(digcode[:2]) for s in p): #there exists prefex in list
            if digcode[2:] > p[[n for n, l in enumerate(p) if l.startswith(digcode[:2])][0]][2:]:
                p.pop([n for n, l in enumerate(p) if l.startswith(digcode[:2])][0])
                p.append(digcode)
            else:
                pass
        else:
            p.append(digcode)
    return p

但是当我将其应用于更大的样本时,它并不能准确地完成工作

>>> o = ['AS6.json', 'AS7.json', 'AS8.json', 'AS9.json', 'BS1.json', 'BS2.json', 'BS3.json', 'BS4.json', 'BS5.json', 'CS1.json', 'CS2.json', 'CS3.json', 'CS4.json', 'CS5.json', 'CS6.json', 'DS10.json', 'DS11.json', 'DS4.json', 'DS5.json', 'DS6.json', 'DS7.json', 'DS8.json', 'DS9.json', 'ES4.json', 'ES5.json', 'ES6.json', 'FS5.json', 'FS6.json', 'FS7.json', 'FS8.json', 'MS4.json', 'MS5.json', 'MS6.json', 'MS7.json', 'MS8.json', 'MS9.json', 'NR1.json', 'NR2.json', 'NR3.json', 'NR4.json', 'NR5.json', 'NR6.json', 'NR7.json', 'NR8.json', 'VR1.json', 'VR2.json', 'VR3.json', 'VR4.json', 'VR5.json', 'VR6.json', 'VR7.json', 'VR8.json', 'XS11.json', 'XS9.json']

>>> j(o)
['AS9', 'BS5', 'CS6', 'DS9', 'ES6', 'FS8', 'MS9', 'NR8', 'VR8', 'XS9']

这是不正确的,因为有 XS11 和 DS11 作为示例。

如果有人可以帮助我纠正我的问题或者找到更简单的解决方案来解决我的问题,我将不胜感激。谢谢

最佳答案

您正在进行字符串比较; '9' 大于 '11',因为字符 '9' 在字母表中排在后面。您必须首先将它们转换为整数。

我会使用字典将前缀映射到最大数量:

def find_latest(lst):
    prefixes = {}
    for entry in lst:
        code, value = entry[:2], int(entry.partition('.')[0][2:])
        if value > prefixes.get(code, (float('-inf'), ''))[0]:
            prefixes[code] = (value, entry)
    return [entry for value, entry in prefixes.values()]

这样的效率要高得多,因为它不会每次都循环遍历整个输入列表;您正在处理列表 N^2 次(添加一个元素,并且您将添加 N 个测试来完成);相反,它会分 N 个步骤处理您的列表。因此,这只是执行 10 次测试,而不是对 10 个元素进行 100 次测试。

演示:

>>> sample = ['AS6.json', 'AS7.json', 'AS8.json', 'AS9.json', 'BS1.json', 'BS2.json', 'BS3.json', 'BS4.json', 'BS5.json', 'CS1.json', 'CS2.json', 'CS3.json', 'CS4.json', 'CS5.json', 'CS6.json', 'DS10.json', 'DS11.json', 'DS4.json', 'DS5.json', 'DS6.json', 'DS7.json', 'DS8.json', 'DS9.json', 'ES4.json', 'ES5.json', 'ES6.json', 'FS5.json', 'FS6.json', 'FS7.json', 'FS8.json', 'MS4.json', 'MS5.json', 'MS6.json', 'MS7.json', 'MS8.json', 'MS9.json', 'NR1.json', 'NR2.json', 'NR3.json', 'NR4.json', 'NR5.json', 'NR6.json', 'NR7.json', 'NR8.json', 'VR1.json', 'VR2.json', 'VR3.json', 'VR4.json', 'VR5.json', 'VR6.json', 'VR7.json', 'VR8.json', 'XS11.json', 'XS9.json']
>>> def find_latest(lst):
...     prefixes = {}
...     for entry in lst:
...         code, value = entry[:2], int(entry.partition('.')[0][2:])
...         if value > prefixes.get(code, (float('-inf'), ''))[0]:
...             prefixes[code] = (value, entry)
...     return [entry for value, entry in prefixes.values()]
... 
>>> find_latest(sample)
['FS8.json', 'VR8.json', 'AS9.json', 'MS9.json', 'BS5.json', 'CS6.json', 'XS11.json', 'NR8.json', 'DS11.json', 'ES6.json']

关于python - 列表中唯一字符串的最大值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28173907/

相关文章:

java - List.of() 在访问者模式中的用法

delphi - 如何正确让界面支持迭代?

python - 是否可以在 python 中 pickle itertools.product?

Python变量赋值给一个函数

python - 尽管使用线程,PyQt5 窗口仍然卡住

python - 在第三个浮点后的新行上分割字符串 - Python

python - itertools.combinations 如何在 Python 中扩展?

python - Itertools 组合无重复 : Where rgb is equivelant to rbg etc

python - 将字符串列表从 python/ctypes 传递到期望 char 的 C 函数**

python - 如何在 Flask 中记录请求 POST 正文?