我有以下问题。我正在寻找通常看起来像这样的字符串中的所有单词
HelloWorldToYou
请注意,每个单词都大写作为开头,然后是下一个单词,依此类推。
我正在寻找从中创建一个单词列表。所以最终的预期输出是一个看起来像的列表
['Hello','World','To','You']
在 Python 中,我使用了以下内容
mystr = 'HelloWorldToYou'
pat = re.compile(r'([A-Z](.*?))(?=[A-Z]+)')
[x[0] for x in pat.findall(mystr)]
['Hello', 'World', 'To']
但是,我无法捕捉到最后一个词“你”。有办法解决这个问题吗? 提前致谢
最佳答案
使用 $
的交替:
import re
mystr = 'HelloWorldToYou'
pat = re.compile(r'([A-Z][a-z]*)')
# or your version with `.*?`: pat = re.compile(r'([A-Z].*?)(?=[A-Z]+|$)')
print pat.findall(mystr)
参见 IDEONE demo
输出:
['Hello', 'World', 'To', 'You']
正则表达式解释:
([A-Z][a-z]*)
- 匹配的捕获组[A-Z]
一个大写英文字母后跟[a-z]*
- 小写英文字母的可选数量
-或-.*?
- 惰性匹配换行符以外的任何字符
如果我们使用[a-z]*
,则可以省略lookahead,但是如果您使用.*?
,则使用它:
(?=[A-Z]+|$)
- 最多一个大写英文字母(我们实际上可以在此处删除+
),或 字符串结尾 ($
)。
如果您不使用前瞻版本,您甚至可以删除捕获组以获得更好的性能和 use finditer
:
import re
mystr = 'HelloWorldToYou'
pat = re.compile(r'[A-Z][a-z]*')
print [x.group() for x in pat.finditer(mystr)]
关于Python正则表达式,匹配最后一个词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30986345/