python - 如何获取第一个大写字母，然后在 Python 中获取每个大写字母后面没有的另一个大写字母？

我正在开发一个脚本，为我无法使用的太长的名称列表创建缩写。我需要将每个名字分成由点分隔的部分，然后取一个单词开头的每个大写字母。就像这样:

InternetGatewayDevice.DeviceInfo.Description -> IGD.DI.D

但是，如果有更多连续的大写字母(如下例所示)，我只想取第一个，然后取不的那个用大写字母。所以，我想从“WANDevice”获取“WD”。像这样:

InternetGatewayDevice.WANDevice.1.WANConnectionDevice.1.WANIPConnection.1.PortMapping.7.ExternalPort -> IGD.WD1.WCD1.WC1.PM7.EP

到目前为止我已经写了这个脚本:

data = json.load(open('./cwmp/tr069/test.json'))

def shorten(i):
    x = i.split(".")
    abbreviations = []
    for each in x:
        abbrev = ''
        for each_letter in each:
            if each_letter.isupper():
                abbrev = abbrev + each_letter
        abbreviations.append(abbrev)
    short_string = ".".join(abbreviations)
    return short_string

for i in data["mappings"]["cwmp_genieacs"]["properties"]:
    if "." in i:
        shorten(i)
    else:
        pass

它正确地“翻译”了第一个示例，但我不确定如何完成其余部分。我想如果必须的话，我可能会想到一些的方法来做到这一点(比如可能将字符串拆分成单个字符)，但我正在寻找一种高效且智能的方法来做到这一点。如果有任何建议，我将不胜感激。

我正在使用 Python 3.6。

编辑:

我决定尝试一种不同的方法并迭代单个字符，我很容易地实现了我想要的。不过，感谢您的回答和建议，我一定会仔细阅读。

def char_by_char(i):
    abbrev= ""
    for index, each_char in enumerate(i):
        # Define previous and next characters 
        if index == 0:
            previous_char = None
        else:
            previous_char = i[index - 1]

        if index == len(i) - 1:
            next_char = None
        else:
            next_char = i[index + 1]
        # Character is uppercase
        if each_char.isupper():
            if next_char is not None:
                if next_char.isupper():
                    if (previous_char is ".") or (previous_char is None):
                        abbrev = abbrev + each_char
                    else:
                        pass
                else:
                    abbrev = abbrev + each_char
            else:
                pass
        # Character is "."
        elif each_char is ".":
            if next_char.isdigit():
                pass
            else:
                abbrev = abbrev + each_char

        # Character is a digit              
        elif each_char.isdigit():
            abbrev = abbrev + each_char

        # Character is lowercase            
        else:
            pass
    print(abbrev)


for i in data["mappings"]["cwmp_genieacs"]["properties"]:
    if "." in i:
        char_by_char(i)
    else:
        pass

最佳答案

您可以为此使用正则表达式。例如，您可以对要保留的字符使用捕获组，并在只保留那些捕获的字符的地方执行替换:

import re

def shorten(s):
    return re.sub(r'([A-Z])(?:[A-Z]*(?=[A-Z])|[^A-Z.]*)|\.(\d+)[^A-Z.]*', r'\1\2', s)

解释:

([A-Z]):捕获一个大写字母
(?: ):这是一个分组，用于明确其中的 | 操作的范围。这不是像上面那样的捕获组(因此将被删除)
[A-Z]*:零个或多个大写字母(贪心)
(?=[A-Z]):应该再跟一个大写字母，但不要处理它——留到下一场比赛
|:逻辑或
[^A-Z.]*:零个或多个非大写，非点(在捕获的大写字母之后):这些将被删除
\.(\d+):一个字面上的点后跟一个或多个数字:捕获数字(以便丢弃点)。

在替换参数中，再次注入(inject)捕获的组:

\1:第一个捕获组(这是大写字母)
\2:第二个捕获组(这些是点后的数字)

在一场比赛中，只有一个捕获组会有东西，另一个只是空字符串。但是正则表达式匹配在整个输入字符串中重复进行。

关于python - 如何获取第一个大写字母，然后在 Python 中获取每个大写字母后面没有的另一个大写字母？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49050197/

python - 如何获取第一个大写字母，然后在 Python 中获取每个大写字母后面没有的另一个大写字母？

上一篇：python - Pandas:如何删除包含无效月/日列组合的行，例如 2 月 30 日？

下一篇：python - 使用多个 AND 语句的 Pandas read_sql_query